大数据研究现状及热点应用介绍+051256课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据研究现状及热点应用介绍+051256课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 研究 现状 热点 应用 介绍 051256 课件
- 资源描述:
-
1、大数据交流提纲大数据交流提纲顺序顺序题目题目侧重点侧重点讲解人讲解人时间时间1大数据研究现状及热点应用介绍大数据发展、热点应用、架构黄绍辉9:0010:002化工销售大数据应用设想大数据价值、数据资源分析、应用展望索寒生10:0010:30讲解和时间安排如下:20142014年5 5月石化盈科信息技术有限责任公司石化盈科信息技术有限责任公司MES事业部事业部目录目录目录目录二、大数据的技术实现三、大数据的热点应用四、大数据应用架构和技术架构3一、大数据的研究现状一、大数据的研究现状一、大数据的研究现状4世界存储、传输与计算信息的技术能力马丁希尔伯特,普里西拉洛佩兹 随着数字化信息的发展,人类产
2、生和储存的数据量呈现爆发式增长,全球的总存储数据量的量级已突破艾字节(EB)甚至泽字节(ZB)(1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB)2000年,数字存储信息只占全球数据量的25%,75%的信息存储在报纸、书籍、胶片、磁带上。到2007年,人类共存储超过300EB的数据,其中数字数据占到93%。到2013年,全球总存储数据量达到1.2ZB,其中数字数据占比将超过98%。数字数据的存储量维持每三年增长一倍的高速增长信息数据化程度的大幅提升,推动了大数据的商业价值显现数字数据数字数据93%93%数字数据数字数据98%98%20002000数字数据数
3、字数据25%25%20072007300EB300EB201320131.2ZB1.2ZB一、大数据的研究现状一、大数据的研究现状5数字化信息的处理,以容量为标准的划分1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB一、大数据的研究现状一、大数据的研究现状6据Wikibon公司测算,2012年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元,年均增速达到58%,是同期IT产业增速的7倍来源:Wikibon公司,2012年722012年各行业大数据市场规模计世资讯预测,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据
4、一 半市场份额。由于各个行业都存在大数据应用需求,潜在市 场空间非常可观。一、大数据的研究现状一、大数据的研究现状12011年-2016年中国大数据市场规模计世资讯认为,2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展计世资讯预测,2013年大数据市场迎来增速为138.3%的飞跃,2016年整个市场规模逼近百亿0%81%138%107%110%92%90%0%30%60%120%150%020406080100市场规模 增长率CCW Research 2012/04互联网15%电信11%流通4%金融11
5、%医疗9%制造9%教育4%零售6%能源8%交通4%政府15%其他4%CCW Research 2012/04一、豌豆实验一、豌豆实验 -大数据的应用之道大数据的应用之道8孟德尔(Gregor Johann Mendel)(18221884)奥地利人,是遗传学的奠基人。1856年,孟德尔就开始了长达8年的豌豆实验。从不同种子供应商买来34个品种的豌豆,从中挑选出22个品种用于实验。它们都具有某种可以相互区分的稳定性状,例如高茎或矮茎、圆料或皱料、灰色种皮或白色种皮等。通过人工培植这些豌豆,对不同代的豌豆的性状和数目进行细致入微的观察、计数和分析。运用这样的实验方法需要极大的耐心和严谨的态度。起初
6、,孟德尔豌豆实验并不是有意为探索遗传规律而进行的。初衷是希望获得优良品种,只是在试验的过程中,逐步把重点转向了探索遗传规律。除了豌豆以外,孟德尔还对其他植物作了大量的类似研究,其中包括玉米、紫罗兰和紫茉莉等,以证明1865年发现的遗传规律对大多数植物都适用。一、曹冲称象一、曹冲称象 -大数据的分布处理之道大数据的分布处理之道9工具(秤)的处理能力有限,当超出其能力范围之后,应当如何处理?是造更大的工具(超级的大秤),还是智慧地将要称的物(大象)拆分成对等的物(石块)?“分而治之”是处理大事物的解决之道,只需将大事物分解到小工具能处理的大小,复制更多的小工具来同时处理,最后将每一个部分的结果汇总
7、起来,就是对大事物的处理结果10Google大数据的诞生Google云计算MapReduceBigTableGFSChubby一、一、GoogleGoogle大数据大数据 -大数据的平台搭建之道大数据的平台搭建之道1998年,斯坦福大学的博士生拉里佩奇和谢尔盖布林在车库中创办了Google公司。两位年轻人没有找到大笔的投资,不得不用廉价PC和自己动手做的小软件来构建网站,所依靠的最核心的3项技术就是Google的分布式文件系统GFS、MapReduce编程模式和分布式数据库BigTable。经过15年的发展,Google在全球部署了大约200万台服务器,每天处理数以亿计的搜索请求,存储每天新增
8、的24PB数据一、诺兰模型一、诺兰模型11美国管理信息系统专家诺兰(RichardLNolan)通过对200多个公司、部门发展信息系统的实践和经验的总结,提出了著名的信息系统进化的阶段模型,即诺兰模型。起步:只有个别人具有使用计算机的能力;一般发生在一个组织的财务部门 蔓延:数据处理能力迅速发展;出现数据冗余、不一致性、难以共享等问题;计算机使用效率不高控制:成立了领导小组;采用了数据库技术;这一阶段是计算机管理变为数据管理的关键 集成:建立集中的DB及相应的IS;增加大量硬件,预算费用迅速增长数据管理:开始选定统一的数据库平台、数据管理体系和信息管理平台,统一数据的管理和使用,各部门、各系统
9、基本实现资源整合、信息共享。IT系统的规划及资源利用更加高效 成熟:信息系统可以满足企业各个层次的需求,从事务处理到高层管理的决策。企业真正把IT同管理过程结合起来,将组织内部、外部的资源充分整合和利用,提升了企业的竞争力和发展潜力一、诺兰模型的总结一、诺兰模型的总结12数据管理阶段,企业管理高层已经意识到企业信息战略的重要性,开始着手企业信息资源的统一规划数据成熟阶段,企业和数据同步发展,数据是企业整体面貌的镜像,企业“以数据为镜”做出发展决策尽管诺兰提出这一模型的时间是 20 世纪 80 年代,但在 30 多年后的今天,人们不难发现 他预见的准确性。企业的信息化建设必然会走到以数据为中心的
10、发展阶段,无论是否愿意,这条规律都是不可违背一、大数据的研究现状一、大数据的研究现状132004年-最初的版本由Doug Cutting和Mike Cafarella开始实施2006年1月-Doug Cutting加入雅虎2006年2月-Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展2006年2月-雅虎的网格计算团队采用Hadoop2011年12月 Cloudera 授权培训认证正式进入中国2012年5月28日-Apache Hadoop 2.0 Alpha 版本发布2013年12月-除了社区的Apache hadoop发行版以外,cloudera、hort
11、onworks、mapR、EMC、IBM、INTEL、华为等都提供了hadoop商业版本 发展过程一、大数据的研究现状一、大数据的研究现状14Gartner2012技术成熟度曲线一、大数据的研究现状一、大数据的研究现状15Gartner2013技术成熟度曲线近几年大数据不断加温,很多企业也的确面临数据量激增的现实困境,但大数据绝非仅仅是数据量大的挑战,核心问题还是取决于数据挖掘背后所能产生的价值。在经历了一段热潮之后,大数据开始实实在在的为企业解决问题。一、大数据的研究现状一、大数据的研究现状16应用可能性应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:纵轴契合度:
12、表示该用户的IT应用特 点与大数据特性的契合 程度;横轴应用可能性横轴应用可能性:表示 该用户出于主客观因素 在短期内投资大数据的 可能性;HighHighMidMidLowLowLowLowMidMidHighHigh优先关注行业用户应用特点与大数据技 术有较高的契合度,在主客观条件上也有 较高的应用可能性。值得关注行业 用户应有特点与大 数据的契合度 及应用可能性 综合较高适当关注行 业用户两个维度暂 时都不具备 优势,可适 当给予关注互联网(电子商务)契合度契合度流通零售制造大数据存在于各个行业领域,根基市场的关注度和技术成熟度将陆续应用不同行业不同应用会使用不同的产品和方案来满足自身的
13、实际需要一、大数据的研究现状一、大数据的研究现状17国外业界对大数据宽泛的认知第一,数据体量巨大,根据IDC的研究数据显示,预计到2015年全世界将会有8万亿GB的信息量第二,数据类型繁多,包括以往文本为主的结构化数据,也包括网络日志、音频、视频、图片、地理位置信息等大量的非结构化数据第三,处理速度快,1秒定律第四,大数据的3V构成也导致其数据价值高但价值密度低的特点,也被称为大数据特点的第4个V,即数据价值Value8 8万亿万亿GBGB20152015全球信息量全球信息量1s1s数据处理速度数据处理速度85%85%非结构化数据占非结构化数据占比比数据价值数据价值Volume Volume
14、数据体量大数据体量大VarietyVariety数据类型多数据类型多Velocity Velocity 处理速度快处理速度快ValueValue大量用户 群体海量计算大量数据管理数据分析一、大数据的研究现状一、大数据的研究现状18国内业内人士对大数据的认知数据在线“知著、见微、晓意”-大数据的解决之道目录目录目录目录二、大数据的技术实现三、大数据的热点应用四、大数据应用架构和技术架构19一、大数据的研究现状20 诞生Google云计算MapReduceBigTableGFSChubbyMapReduce MapReduceGFS HDFSBigTable HbaseChubby ZooKeep
15、er二、大数据的技术实现二、大数据的技术实现二、大数据的技术实现二、大数据的技术实现21大数据处理的平台解决方案大数据储存大数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据分析数据分析数据展现数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构二、大数据的技术实现二、大数据的技术实现22Hadoop是个体系二、大数据的技术实现二、大数据的技术实现23大数据处理的平台解决方案传统并行计算架构并行计算+分布式存储运算储存传统储存架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-noth
16、ing),具有高系统延展性(scale-out)。二、大数据的技术实现二、大数据的技术实现24Hadoop VS RDBMSRDBMSHadoop资料量GB-TBTB-PB存取方式交互式与批次批次数据更新多次读写一次写,多次读数据结构固定 schema无 schema资料一致性高(ACID)低扩充性非线性线性二、大数据的技术实现二、大数据的技术实现25Hive SQL like Hadoop DatabaseDriver(compiler,optimizer,executor)metastoreData NodeData NodeData NodeData NodeHadoop Cluster
17、M/RM/RM/RM/RWeb UICLIJDBCODBCCreate M/R Job二、大数据的技术实现二、大数据的技术实现26Sqoop SQL to HadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreate Map Tasks二、大数据的技术实现二、大数据的技术实现27传统数据处理流程运营信息物料信息工艺参数操作信息数据仓库其他信息大部份删除ETL部份资料二、大数据的技术实现二、大数据的技术实现28探索的数据处理流程物料信息工艺参数操作信息效益分析?工艺分析?报警分析?运营信息数据仓库二、大数据的技术实现二、大数据的技术实现29Spark:大
18、数据的“电光石火”Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,罕见的全能型选手轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简洁和丰富表达力;另一方面,Spark很好地利用了Hadoop和Mesos的基础设施。虽然很轻,但在容错设计上不打折扣快:Spark对小数据集能达到亚秒级的延迟,这对于Hadoop MapReduce是无法想象的。就大数据集而言,对典型的迭代机器学习、即席查询、图计算等应用,Spark版本比基于
19、MapReduce、Hive和Pregel的实现快上十倍到百倍灵:Spark提供了不同层面的灵活性。在实现层,完美演绎了Scala trait动态混入策略;在原语层,它允许扩展新的数据算子、新的数据源、新的language bindings;在范式层,Spark支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种 范式巧:Spark借Hadoop之势,与Hadoop无缝结合;无论是语法还是API,在实现上又能灵巧借力。缺点:不能很好地支持细粒度、异步的数据处理二、大数据的技术实现二、大数据的技术实现30Storm:高速处理流式数据Storm是一个免费开源、分布式、高容错的实时计算系统。
20、Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的Storm带着流式计算的标签华丽地出场了:分布式系统、运维简单、高度容错、无数据丢失、多语言Storm 物理拓扑结构 Nimbus服务器将拓扑二、大数据的技术实现二、大数据的技术实现312012-2013中国IT技术趋势大调查-数据管理的新技术预测数据管理的新技术预测如上图所示,分布式存储与计算成为最受关注的数据管理新技术,比例达到29.86
21、%;其次是内存数据库技术,占到23.30%;云数据库排名第三,比例为16.29%。此外,列式数据库技术、NoSQL也获得较多关注。从调查结果来看,以Hadoop为代表的分布式存储与计算已成为人们心目中大数据的关键技术。以SAP HANA为代表的内存数据库技术和以SQL Azure为代表的云数据库技术,也将成为占据重要地位的数据管理创新平台二、大数据的技术实现二、大数据的技术实现322012-2013中国IT技术趋势大调查-商业智能的发展趋势商业智能的发展趋势对于商业智能未来的趋势预测,调查显示排在前三位的是丰富的挖掘模型、实时的分析、精准的特定目的分析。其后是社交网络分析、云端服务和移动BI。
22、由此看出人们期待商业智能应用能够在这些方面做出改变。以上趋势不难看出,在大数据时代,人们把焦点放在那些能快速改变现状的颠覆性技术上,大数据存储与计算、数据挖掘与分析,以及商业智能等应用将在未来大放异彩二、大数据时代的技术特点二、大数据时代的技术特点33大数据背景下IT解决方案变化特点二、大数据的挑战二、大数据的挑战34大数据的角色和技能无论什么样的IT技术,说到底都是对人才的需求数据科学家 行业知识 分析技能商业智能专业人员 Hadoop、.Net 关系型数据库业务分析Business Analysts0101010101010101011010101010101010010101010101
展开阅读全文