书签 分享 收藏 举报 版权申诉 / 148
上传文档赚钱

类型大数据路演课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3195124
  • 上传时间:2022-08-01
  • 格式:PPT
  • 页数:148
  • 大小:12.60MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据路演课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 课件
    资源描述:

    1、大数据大数据-与我们的未来与我们的未来王宝会北京航空航天大学22北航软件学院教授级高工。中国民航总局专家、交通部交通信息化专家、财政部中央政府采购网信息化专家,科技部中小企业创新基金评审专家。20年以上系统研发经验,丰富的软件系统设计和项目管理经验,尤其在民航飞机项目DO-178B和DO-254适航认证方面做出杰出的成就,主要研究方向为系统架构、软件性能工程和民用飞机适航认证。参与湖南株洲、江西上饶、江西萍乡、江苏盐城、河北邢台、浙江高速等众多智慧城市顶层设计。主持或负责过几十个大型系统的研发(其中包括国家科技支撑项目、国家发改委专项基金项目、民航专项基金项目等等)。自我介绍我的提纲鸿蒙之初迷

    2、雾重重利器初放光芒大数据思维未来鸿蒙之初大数据背景 大数据像“洪流”一样海量增长,奔腾于经济、政治、社会的各个领域,并且,随着信息技术的普及和进步,大数据不仅继续在这些领域翻腾起更高的浪潮,还会催生新的产业,进一步推动数据交汇、融合互联网画像百度神灯搜索2015年4月1日上午,手机百度在爱奇艺、腾讯视频等网站上传了一段新品宣传视频,视频中演示了手机百度疑似即将推出“神灯搜索”新功能,该功能基于一款名为“百度神灯”的智能手机配件配合最新版本的手机百度实现。“神灯搜索”可以将手机百度的搜索结果以全息投影的形式展现在用户面前,同时用户可以与之进行实时互动,实现更加直观、智能的搜索体验。你访问了这个世

    3、界这个世界也访问了你物联网催生大数据工业4.0工业 4.0航天工程卫星接收数据移动互联网无线传感网络WSN人类行为不断创造大数据 随着信息化向人类社会各个层面渗透和发展,人类社会的各种行为都以数据的形式存储在计算机系统中 人类生活在一个数据驱动的世界 数据如人体的血液,成为各类业务系统运行的支撑和前提人类行为不断创造大数据你在地球上的全部运动轨迹(通过LBS采集)你银行全部支付记录(通过在线支付采集)你的全部交往记录(通过SNS采集);你的全部言行记录(通过邮件、文档、Timeline、视频监控等采集)。人类行为不断创造大数据世界上每分钟都有海量数据产生2020年:数据量将达到35ZBGBTB

    4、PBEBZB在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。有市场研究机构预测(2009年):到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!1GB=230字节1TB=240字节1PB=250字节1EB=260字节1ZB=270字节2020年:国内数据量将达到8.5ZB2013 年中国产生的数据总量超过0.8ZB(相当于8亿TB),2 倍于2012 年,相当于2009 年全球的数据总量。2020 年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。27数据驱动的世界

    5、数据驱动的世界数据的有效、高效应用才是关键!数据的有效、高效应用才是关键!科学商务医疗娱乐股票交易数据通信数据业务运营数据MRI数据CT扫描数据电子病历MP4/MP3数据DVD9社交网络DNA数据勘探数据数据密集型科研大数据大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从产业角度,常常把这些数据与采集它们的工具、平台和分析系统一起统称为“大数据”。通俗地讲,“大数据”就是对网上海量的文本、图像、音频和视频数据进行采集、分析、加工和利用。从一般意义上说,“大数据”是指那些超过传统数据库系统处理能力的数据,数据量通常在10TB(1TB=1 024 GB,为1万亿字

    6、节)以上。因为数据库,“大数据”已经成为变革的中心。大数据的判断标准四个V海量Volume速度(Velocity):高速的数据流转和价值呈现多样泛在(Variety)价值(Value):信息过载世界的价值提炼迷雾重重现有企业IT环境的挑战大数据存储的未来发展趋势目前目前10-15年年15年后年后预计预计市场普及周期市场普及周期现阶段存储的发展仍将以网络存储为主2020年 60%以上的创造数据将因无法存储而丢失中国移动大数据的烦恼信令分析与监测系统中国移动大数据的烦恼信令分析与监测系统原数据库服务器配置:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点入库,另外一个节点查询 存

    7、储:HP虚拟化存储,1000个盘 数据库架构采用Oracle双节点RAC 问题:1 入库瓶颈 2 查询瓶颈数据日趋庞大,无论是入库和查询,都出现性能瓶颈用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高使用的模型越来越复杂,计算量指数级上升利器解决大数据问题的思路海量数据计算快省海量数据存储44Pervasive ComputingInternet of ThingsService ComputingCloud ComputingCloud ComputingSocial ComputingSystem of SystemsGrid Computing as a as a Comp

    8、uterComputerBig DataBig DataMobile InternetMobile InternetModern ServiceSmarter PlanetInternet CultureSocial NetworkVirtual World技术方面:技术方面:如何利用Internet为核心的多网融合,实现高性价比、高效能、高可信的信息化技术应用方面:应用方面:如何利用以Internet为核心的信息化技术,实现成本控制、资产增值、业务创新Internet Internet Internet正在演化为一台全球泛在计算机正在演化为一台全球泛在计算机(global ubiquitou

    9、s computer)互联网产业发互联网产业发展迅速,概念、展迅速,概念、热点频出热点频出互联网催生了互联网催生了“创新创新”时代时代45互联网催生了互联网催生了“创新创新”时代时代46 as a ComputerInternet 云计算大数据移动 互联网围绕数据中心围绕数据中心提供计算、存提供计算、存储、网络、应储、网络、应用服务用服务用户通过智能用户通过智能移动终端更加移动终端更加广泛地接入互广泛地接入互联网联网海量、异构、实时海量、异构、实时数据存储、组织、数据存储、组织、分析和处理分析和处理三者彼此交叠,相辅相成,呈现视角和关注点的不同三者彼此交叠,相辅相成,呈现视角和关注点的不同大数

    10、据大数据/云计算云计算/移动互联网移动互联网本质上均是互联网计算及其延伸本质上均是互联网计算及其延伸47大数据大数据/云计算云计算/移动互联网移动互联网本质上均是互联网计算及其延伸本质上均是互联网计算及其延伸先解决数据存储的问题Google集装箱数据中心 位于 Mountain View,Calif 总部的数据中心 总功率为10000千瓦,拥有45个集装箱,每个集装箱中有1160台服务器,该数据中心的能效比为1.25(PUE 为 1 表示数据中心没有能源损耗,而根据2006年的统计,一般公司数据中心的能效比为 2.0 或更高。Google 的 1.16 已经低于美国能源部2011年的1.2 的

    11、目标)Google的低成本之道 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务 全世界多个数据中心,有些附带发电厂 运营商向Google倒付费51Google的三篇论文52先解决计算的问题Google使用GFS进行分布式存储53再解决计算的问题Google使用Map-reduce思想计算PR第一二列在一台电脑(每个电脑存储着若干个列)【几个列就把q特征向量送过几个值来用于计算】,q1*第一列+q2*第二列;每个节点做类似的事情-发到一个目标节点,把所有节点加起来。q1-q2-直到收敛。这个思想就是mapreduc

    12、e.54再解决实时计算的问题Google使用Bigtable思想进行数据库存储55GoogleGoogle不愿意公开更多的细节不愿意公开更多的细节56Hadoop的出现 Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎 对于大数量的场景,Lucene面对与Google同样的困难。迫使Doug Cutting学习和模仿Google解决这些问题的办法 一

    13、个微缩版:Nutchnutch 的初衷:创建一个开源的全网搜索引擎。抵抗Google在搜索领域的垄断。Nutch:2002 Hadoop的初衷是为解决Nutch的海量问题。57从lucene到nutch,从nutch到hadoop2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升Yahoo招安Doug Cutting及其项目Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的 一部分正式引入Apache基金会。2006 年 3 月

    14、份,Map-Reduce 和Nutch Distributed File System(NDFS)分别被纳入称为 Hadoop 的项目中58Doug Cutting59HDFS/Mapreduce登场HDFSM/R60名字来源于Doug Cutting儿子的玩具大象61目前Hadoop达到的高度 实现云计算的事实标准开源软件 包含数十个具有强大生命力的子项目 已经能在数千节点上运行,处理数据量和排序时间不断打破世界纪录62Hadoop分布式体系6363天下之势,分久必合,合久必分64Hadoop的思想65Hadoop 166Hadoop2Hadoop2、spark(UC伯克利大学研发框架,ya

    15、hoo率先用)、Storm新的数据分析平台hadoop1的核心组成是两部分,即HDFS和MapReduce。在hadoop2中变为HDFS和Yarn。新的HDFS中的NameNode不再是只有一个了,可以有多个(目前只支持2个)。每一个都有相同的职能。67Hadoop1Hadoop268Hortonworks Solution69Storm构建大数据实时计算Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。70Spark构建大数据实时计算Spark是基于map reduce算法所实现的分布式计算框架,拥有Hadoop MapReduce所具有的优点;不同于MapRe

    16、duce的是Job中间输出和结果可以保存在内存中,而不需要读写HDFS,因此Spark能更好地适用于machine learning等需要迭代的map reduce算法。71Spark StreamSpark Streaming是Spark生态中一种具有高吞吐与容错性能的在线数据流的实时流处理框架。72实时计算初放光芒大数据 PK OracleOracle服务器配置参数服务器配置参数名称:浪潮英信服务器型号:NF8560M2CPU:intel xeon E7-4820核心:4颗CPU,每颗16核,共计64核内存:32GB硬盘:18T软件环境软件环境操作系统:Redhat数据库:Oracle 1

    17、1g集群主机配置集群主机配置 3个主节点个主节点(NameNode、SNameNode、jobtracker):型号:IBM x3650 M3 CPU:六核2.8*2 内存:24G 硬盘:8T 10个数据节点:个数据节点:型号:IBM x3650 M3 CPU:六核2.8*2 内存:16G 硬盘:8T软件环境:软件环境:操作系统:CentOS 6.5 大数据管理平台软件1.0大数据平台环境参数大数据平台环境参数Oracle环境参数环境参数场景一:直系亲属以户成员信息和人员基本信息两张表进行关联查询,根据身份证号或者姓名查询人员的直系亲属信息场景描述场景描述p 测试2000万条人员数据,分别加载

    18、2000万数据到Oracle和大数据管理平台;p 在Oracle中,对2000万条数据创建索引、加大临时表空间等查询优化操作;p 在大数据管理平台中,对2000万条数据进行压缩、分区、预处理等操作来减少数据的存储量、提高数据查询速度;p 根据具体身份证号查询直系亲属;p 分别查询三次,并做记录,统计查询返回结果所需时间的平均值测试过程测试过程u Oracle分别为12秒、11秒、15秒,平均查询时间:12.7秒秒u 大数据管理平台分别为421毫秒、415毫秒、438毫秒,平均查询时间:0.42秒秒测试结果测试结果场景二:宾馆同行人加载宾馆住宿信息至Oracle和大数据管理平台中,根据身份证号查

    19、询退房时间间隔不超过20分钟,并且三次以上的人场景描述场景描述p 测试10亿条相同的数据,分别加载10亿数据到Oracle和大数据管理平台;p 在Oracle中,对10亿条数据创建索引、加大临时表空间等查询优化操作;p 在大数据管理平台中,对10亿条数据进行压缩、分区、预处理等操作来减少数据的存储量、提高数据查询速度;p 根据具体身份证号查询宾馆同行人;p 分别查询三次,并做记录,统计查询返回结果所需时间的平均值测试过程测试过程u Oracle,经过多次杀死查询进程,重新查询及增加内存和临时表空间等操作后,查得三次结果为:140分13秒、120分50秒、100分24秒,平均查询时间:120分分

    20、29秒秒u 大数据管理平台为32104毫秒、31050毫秒、30048毫秒,平均查询时间:31.1秒秒测试结果测试结果场景三:网吧同行人加载网吧同行人信息至Oracle和大数据管理平台中,根据身份证号查询下机时间间隔不超过20分钟,并且三次以上的人员场景描述场景描述p 测试15亿条相同的数据,分别加载15亿数据到Oracle和大数据管理平台;p 在Oracle中,对15亿条数据创建索引、加大临时表空间等查询优化操作;p 在大数据管理平台中,对15亿条数据进行压缩、分区、预处理等操作来减少数据的存储量、提高数据查询速度;p 根据具体身份证号查询网吧同行人;p 分别查询三次,并做记录,统计查询返回

    21、结果所需时间的平均值测试过程测试过程u Oracle,经过多次尝试,长时间等待处理结果,最终导致系统宕机系统宕机,无法处理无法处理u 大数据管理平台为54154毫秒、53058毫秒、59480毫秒,平均查询时间:55.56秒秒测试结果测试结果一直未解决好数据挖掘DSS一直未解决好数据挖掘DW一直未解决好数据挖掘BI大数据架构Hadoop,未来的数据艺术家大数据分析的行动 Intel联手MIT成立了“英特尔科学技术中心”,重点研究大数据技术 由Apache Software Foundation公司会开发的Hadoop成为大数据处理的佼佼者 IBM大数据平台建立在开源的Apache Hadoop

    22、之上 百度同时做到“绿色”与大数据分析 淘宝利用大数据挖掘技术创建数据魔方 QQ提出“大数据营销”理念 移动国内数据中心的三大数据基地布局淘宝数据魔方应用每日新增数据20T 20T 累积数据14P14P2000+2000+服务器的云计算平台每天处理100,000+100,000+作业任务,包括100+100+新增作业任务每天处理1P+1P+数据,包括0.5%0.5%新增数据淘宝流量计算淘宝用户推荐日本核泄露的数据分析图Facebook Friend Map89百度后台每天数十亿次LBS(基于地理位置的服务)定位数据进行计算分析,展现春节前后人口大迁徙的轨迹与特征。智慧交通场景:车辆异常快速识别

    23、车辆异常快速识别91用户:最大城市,交通领域(City traffic)场景:车牌记录Car Licence Plate,100亿10 Billion/年需求:小时级别-优化到分钟级Minute-未来优化到秒级SecondsSELECT id FROM Table where id like%JA-sq%;(模糊匹配查询出模糊匹配查询出ID 带带 JA-sq 的车牌号的车牌号)921亿 数据,并行5 Map进程,144w/s 扫描速度,69s 返回10亿数据,并行46 Map进程,800w/s 扫描速度,117s 返回100亿数据,并行453Map进程,5400w/s 扫描速度,3分钟返回,基

    24、本满足需求SELECT id,COUNT(*)FROM Table GROUP BY id(对每个车牌号分组归并对每个车牌号分组归并,并求出现次数并求出现次数)931亿 数据,并行5 Map进程,2 Reduce进程,104w/s 处理速度,96s 返回10亿数据,并行46Map进程,13Reduce进程,230w/s 处理速度,7分钟返回100亿数据,并行453Map进程,121Reduce进程,500w/s 处理速度,54分钟返回。94国内外企业用Hadoop做什么?数据仓库,商业智能 (facebook,twitter,淘宝,京东,暴风,新浪,58同城.,移动大云)互联网广告计算(亿赞普

    25、,科捷,各类大互联网企业)大搜索引擎项目(Yahoo,国产盘古,人民搜索)站内搜索引擎项目 (Ebay,支付宝)内容推荐引擎(人人,新浪微博,优酷)病毒分析,垃圾邮件识别(Yahoo,趋势科技,360)云计算服务项目(亚马逊云,阿里云)地图项目(月球表面探测地图)科研项目(欧洲量子对撞机)金融项目(股票分析,阿里金融)视频云编码解码3D云渲染DNA分析芯片计算机辅助设计射电信号分析台湾-月球地质研究95国内外企业用Hadoop做什么?96亚马逊将MapReduce作为一项服务97大数据产品系统架构图大数据思维99大数据使得我们重新思考100 大数据非常擅长解决关联关系,不能解决因果关系。大数据

    26、全样本,预测、决策比小样本更加准确 大数据对未来趋势会有洞见性认识大数据使得我们重新思考101 数据的资源化:大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。大数据被喻为与蒸汽、电力、石油相媲美的下一代重要自然资源。有人视大数据为企业未来竞争优势的基础,它将改变企业决策、价值创造和价值实现的方式。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。大数据使得我们重新思考大数据的本质也是信息化本质降低成本增值大数据新架构带来的价值Hadoop技术从互联网蔓延到其他应用领域技术从互联网蔓延到其他应用领域104大数据直接导致工业4.0产生通过工业数据节约、治理和优化,商用

    27、航空领域,每节省1%的燃料意味着将来15年中能节省300亿美元支出。全球燃气电厂运作相率提升1%,将节省660亿美元能耗支出。医疗保健行业效率每增长一个百分点,将节省630亿美元。世界铁路网交通运输效率,若提高一个百分点,将节省270亿美元能源支出。大数据能帮企业做什么?1号店一号店,电子商务型网站,2008年7月 11日,“1号店”正式上线,开创了中国电子商务行业“网上超市”的先河。公司独立研发出多套具有国际领先水平的电子商务管理系统并拥有多项专利和软件著作权,并在系统平台、采购、仓储、配送和客户关系管理等方面大力投入,打造自身的核心竞争力,以确保高质量的商品能以低成本、快速度、高效率的流通

    28、,让顾客充分享受全新的生活方式和实惠方便的购物。1号店1,挖掘每个用户1号店的关注点还仅仅停留在用户的购买记录和收藏行为上。相比之下,它目前对数据的捕捉,显然更加“精细化”。无论是购买频次,还是用户的性别、年龄、习惯等,都能帮助它分析和跟踪消费模式的微妙变化,进而“投其所好”地实现最大化的销售。当一个用户浏览了商品后没有购买,1号店紧接着便会分析整个购物过程“卡”在哪个环节上。1号店1,挖掘每个用户假如商品已经加入了购物车,那么导致用户没有购买的很可能是高运费,1号店很可能会调整运费;倘若用户没有购买是因为库存缺货,那么下次库存到货后公司就会提醒用户购买;如果用户浏览了许多类似的商品却最终没有

    29、购买,那么可以推测用户对这一品类的商品感兴趣,只是没有找到自己想要的品牌。这种情况下,只要有新品上架,1号店就会第一时间推荐用户购买。在此基础上,公司观察到许多用户的购买频次有其规律性,假如一个用户上1号店只购买洗发水,且每三周购买一次,那么一旦用户哪一次没有购买,1号店就会想方设法地“提醒”他。1号店2,1号店首先会根据用户的购买金额和频次将其分为四个大群,在用户大群的基础上,公司根据用户的浏览习惯,为其打上更为细致的“标签”。这种描绘用户个人信息及购买偏好的标签,多达成百上千个,“比如,他是倾向于购买哪一类商品的?他的浏览行为是什么,是喜欢搜索还是用类目浏览?他喜欢在上班时间购物,还是在周

    30、末购物?购买的周期和收货的习惯又是什么?”1号店3,消除“大数据”噪音在公司设置的价格模型中,不同的品类都有相应的市场价格策略。“譬如,有些品类的价格要做到业界领先,有些品类只要不高于竞争对手就行了。有些是我的利润品类,有些是流量品类,除了外部干扰,消费者的个人操作中也包含着不少无效行为,这同样被视为一种“数据噪音”。有的用户上1号店并不是为了购物,而纯粹是为了测试网站,“他注册之后,往往下一个订单后取消,再下一个订单再取消,这些用户肯定不在的研究范围”。1号店4,注重算法1号店需要在极短的时间内,通过算法解读用户的行为,并在得到结论后做出实时的推荐。用于刚的话说,“当一个顾客用搜索来挑选商品

    31、时,我们的后台需要为这一搜索做支持,算法得非常快才行否则用户等待的时间一长,就会不耐烦。”1号店115大数据技术冲击传统超市大数据技术冲击传统超市116大数据技术冲击传统媒体大数据技术冲击传统媒体117大数据面前,电视台恐将沦为内大数据面前,电视台恐将沦为内容代工厂容代工厂社交媒体与电视台的合作中,社交媒体的核心资源是用户,而电视台的核心资源是内容。内容是否有价值取决于针对什么样的用户,在这一点操作上,电视台用了半个世纪都没有实现。而社交媒体做到了,因为他们有足够的数据,更因为他们有能力对这些数据进行有效的分析,从而将内容有针对性的匹配给用户。118佛山日报的佛山日报的“大数据大数据”应用探索

    32、应用探索1.在报道中贯穿“大数据”应用。佛山日报社区记者,在调查走访佛山中心城区近百家游泳场馆,在掌握大量数据的基础上,记者将“安全泳池”的信息与佛山城市地图重合,拼出佛山泳池资质图表,供市民游水消暑、政府部门检查执法作为参考。2.专业的数据分析,对接读者需求,佛山日报在每一次的年度改版前,都会委托国际知名的市场调查机构,进行大规模读者调查,找到读者对报纸的意见和诉求,进行有针对性的改版。佛山日报社成立了专业的社交网站、新媒体“大数据”监控部门。3.以满意度数据为支撑,改革采编人员薪酬体系,考核指标由两部分构成:首先,部门的管理者在年底时,会根据采编人员的整体稿件、版面质量、工作态度等进行等级

    33、评定;其次,根据年终“读者满意度”数据的积累情况,对采编人员进行等级评分。119大数据技术冲击金融大数据技术冲击金融120大数据技术冲击金融大数据技术冲击金融大数据可以帮助金融企业解决信息不对称,解决营销、定价、风险和欺诈问题,市场营销,包括交叉销售、二次销售方面,体现在如何进行客户挽留、客户价值评估等。信贷和风险,主要是信用分配、风险评估、实施授权、风险干预和欺诈识别等。预测与估价,包括周期行为分析、量化分析、流失分析、催收分析等。大数据助力服务行业124大数据技术助力娱乐行业大数据技术助力娱乐行业125大数据技术助力娱乐行业大数据技术助力娱乐行业陈坤的微博账号共发过3674 条微博,拥有5

    34、497 万粉丝;黄晓明则已发过1758 条微博,粉丝1678 万。而通过对两人微博的分析,不难发现两人有着不一样的Style。除去演员、歌手、摄影、艺术等这些相同的标签,陈坤的标签还有编剧、出版、佛教、阅读、自由,黄晓明则集中为段子、冷笑话、幽默、八卦、90 后和宅。解读微博人脉圈与他们互粉的人重合度很高。按照粉丝数由高到低排序,两人的互粉TOP20 人中,重合度高达65%。但两人并没有互相关注。从两人的微博互动行为来看,陈坤与出版界、公益界的互动很频繁,如李连杰的壹基金、邓飞、王克勤等;而黄晓明频繁互动的对象多集中于影视明星、导演、编剧等。解读他们影响着谁?陈坤和黄晓明两人的活跃粉丝群中,性

    35、别和年龄的分布极为接近。女性约占到四分之三,普通用户占到八成,这样的比例明显高于微博上用户性别分布和用户类型分布的统计平均值,说明女性普通用户对二人都有较强的关注倾向。在粉丝年龄分布上,90 后数量最多,约占七成,且粉丝偏好度远高于微博用户年龄分布的统计平均值,80 后则远低于平均值,70 后更低。而陈坤的粉丝整体平均年龄比黄晓明的粉丝平均年龄略高。126 地图导航,提供位置信息服务大数据助力交通出行服务127大数据带来快速应急响应、快速协同128大数据带来快速应急响应、快速协同1292016-2020 76个重点项目,有14个是大数据项目130南方电网大数据专题项目 面向智能电网安全运维的智

    36、能可穿戴设备关键技术研究 基于物联网的智能反窃电应用研究 大数据技术平台体系架构研究与实验系统构建 基于不完善计量与设备监测的数据挖掘平台技术研究与示范应用 大数据应用场景规划项目 基于营配贯通的大数据示范应用项目 基于大数据的电网综合防灾减灾技术研究与示范应用 智能配用电大数据技术研究及其应用 基于大数据平台的准实时数据质量评价系统 基于大数据平台的停电事件准实时分析与研判系统 大数据挖掘分析在资产全生命周期管理辅助决策中的应用研究 大数据分析在交直流混合电力主网架中的应用研究 面向大数据中心的运维事件快速分析技术研究 基于大数据分析的网络安全检测技术及应用研究131大数据助力智慧城市智慧城

    37、市是城市管理革命和发展模式创新,是现代化城市整合发展的更高形态,是城市信息化的高级阶段,其核心在于运用现代信息通信技术构建无所不在的高速融合网络、智能感知环境和超强海量运算能力,改革城市信息系统管理机制、全面整合和优化配置城市各类资源。提高城市管理和服务水平,提升公众的生存方式和生活质量,推动发展高端产业和产业的高端环节,促进经济发展方式转变,实现科学发展。大数据未来133 与云计算的深度结合:大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新

    38、兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。大数据未来134伟大的复兴之路-一带一路135互联网金融、大数据2014年首次纳入政府工作报告136大数据未来发展 科学理论的突破:兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。137大数据未来发展138大数据未来发展 诺贝尔颁给大数据时代的化学奖,在诺奖官网上,写着三位科学家的获奖原因:“在复杂化学系统中发展了多尺度模型”。通过计算机筛选大量数据,从而模拟肉眼所看不到的变化是如何发生的。在告别“小棍棍”实验,现代科学通过建模计算,无中生有,系统生长。用计算机取代

    39、真实实验的尝试,这是颁给大数据时代的化学奖。139分析挖掘算法如何设计得好 数据分类 数据聚类 关联分析 回归预测 时间序列分析 拓扑网络的分析 KNN TF-IDF Bernoulli Bayers SVN DBSCAN 协同过滤 单词计数 数据去重 排序 Top K 选择 投影 分组 多表连接 单表关联140分析挖掘算法如何设计得好141大数据未来发展 数据科学和数据联盟的成立:数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业

    40、层面,并且成为未来产业的核心一环。142大数据未来发展不是世界变化太快,世界还是原来的世界,是我们原来没有足够的工具认识世界143大数据带来国家组织结构的变化144国家工业与大数据部职责 重视大数据人才培养、关键技术和商业模式研究,完善相关法规,推动政府部门等率先开放大数据,重视大数据基础设施建设,尽快启动大数据产业的试点,建立大数据交易平台。145大数据与你 人生成功需要六匹马,大数据绝对是你的一匹快马。你的马比别人快,你离成功就比别人近!大数据使得企业IT工程师从后台走向前台147大数据帮助你规划你自己 为什么早上总是起不来?为什么加班的总是我?为什么工作总是做不完?为什么时间总是不够用?烦,烦,烦。?148148大数据,让你的未来更精彩!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据路演课件.ppt
    链接地址:https://www.163wenku.com/p-3195124.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库