大数据路演课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据路演课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 课件
- 资源描述:
-
1、大数据大数据-与我们的未来与我们的未来王宝会北京航空航天大学22北航软件学院教授级高工。中国民航总局专家、交通部交通信息化专家、财政部中央政府采购网信息化专家,科技部中小企业创新基金评审专家。20年以上系统研发经验,丰富的软件系统设计和项目管理经验,尤其在民航飞机项目DO-178B和DO-254适航认证方面做出杰出的成就,主要研究方向为系统架构、软件性能工程和民用飞机适航认证。参与湖南株洲、江西上饶、江西萍乡、江苏盐城、河北邢台、浙江高速等众多智慧城市顶层设计。主持或负责过几十个大型系统的研发(其中包括国家科技支撑项目、国家发改委专项基金项目、民航专项基金项目等等)。自我介绍我的提纲鸿蒙之初迷
2、雾重重利器初放光芒大数据思维未来鸿蒙之初大数据背景 大数据像“洪流”一样海量增长,奔腾于经济、政治、社会的各个领域,并且,随着信息技术的普及和进步,大数据不仅继续在这些领域翻腾起更高的浪潮,还会催生新的产业,进一步推动数据交汇、融合互联网画像百度神灯搜索2015年4月1日上午,手机百度在爱奇艺、腾讯视频等网站上传了一段新品宣传视频,视频中演示了手机百度疑似即将推出“神灯搜索”新功能,该功能基于一款名为“百度神灯”的智能手机配件配合最新版本的手机百度实现。“神灯搜索”可以将手机百度的搜索结果以全息投影的形式展现在用户面前,同时用户可以与之进行实时互动,实现更加直观、智能的搜索体验。你访问了这个世
3、界这个世界也访问了你物联网催生大数据工业4.0工业 4.0航天工程卫星接收数据移动互联网无线传感网络WSN人类行为不断创造大数据 随着信息化向人类社会各个层面渗透和发展,人类社会的各种行为都以数据的形式存储在计算机系统中 人类生活在一个数据驱动的世界 数据如人体的血液,成为各类业务系统运行的支撑和前提人类行为不断创造大数据你在地球上的全部运动轨迹(通过LBS采集)你银行全部支付记录(通过在线支付采集)你的全部交往记录(通过SNS采集);你的全部言行记录(通过邮件、文档、Timeline、视频监控等采集)。人类行为不断创造大数据世界上每分钟都有海量数据产生2020年:数据量将达到35ZBGBTB
4、PBEBZB在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。有市场研究机构预测(2009年):到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!1GB=230字节1TB=240字节1PB=250字节1EB=260字节1ZB=270字节2020年:国内数据量将达到8.5ZB2013 年中国产生的数据总量超过0.8ZB(相当于8亿TB),2 倍于2012 年,相当于2009 年全球的数据总量。2020 年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。27数据驱动的世界
5、数据驱动的世界数据的有效、高效应用才是关键!数据的有效、高效应用才是关键!科学商务医疗娱乐股票交易数据通信数据业务运营数据MRI数据CT扫描数据电子病历MP4/MP3数据DVD9社交网络DNA数据勘探数据数据密集型科研大数据大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从产业角度,常常把这些数据与采集它们的工具、平台和分析系统一起统称为“大数据”。通俗地讲,“大数据”就是对网上海量的文本、图像、音频和视频数据进行采集、分析、加工和利用。从一般意义上说,“大数据”是指那些超过传统数据库系统处理能力的数据,数据量通常在10TB(1TB=1 024 GB,为1万亿字
6、节)以上。因为数据库,“大数据”已经成为变革的中心。大数据的判断标准四个V海量Volume速度(Velocity):高速的数据流转和价值呈现多样泛在(Variety)价值(Value):信息过载世界的价值提炼迷雾重重现有企业IT环境的挑战大数据存储的未来发展趋势目前目前10-15年年15年后年后预计预计市场普及周期市场普及周期现阶段存储的发展仍将以网络存储为主2020年 60%以上的创造数据将因无法存储而丢失中国移动大数据的烦恼信令分析与监测系统中国移动大数据的烦恼信令分析与监测系统原数据库服务器配置:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点入库,另外一个节点查询 存
7、储:HP虚拟化存储,1000个盘 数据库架构采用Oracle双节点RAC 问题:1 入库瓶颈 2 查询瓶颈数据日趋庞大,无论是入库和查询,都出现性能瓶颈用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高使用的模型越来越复杂,计算量指数级上升利器解决大数据问题的思路海量数据计算快省海量数据存储44Pervasive ComputingInternet of ThingsService ComputingCloud ComputingCloud ComputingSocial ComputingSystem of SystemsGrid Computing as a as a Comp
8、uterComputerBig DataBig DataMobile InternetMobile InternetModern ServiceSmarter PlanetInternet CultureSocial NetworkVirtual World技术方面:技术方面:如何利用Internet为核心的多网融合,实现高性价比、高效能、高可信的信息化技术应用方面:应用方面:如何利用以Internet为核心的信息化技术,实现成本控制、资产增值、业务创新Internet Internet Internet正在演化为一台全球泛在计算机正在演化为一台全球泛在计算机(global ubiquitou
9、s computer)互联网产业发互联网产业发展迅速,概念、展迅速,概念、热点频出热点频出互联网催生了互联网催生了“创新创新”时代时代45互联网催生了互联网催生了“创新创新”时代时代46 as a ComputerInternet 云计算大数据移动 互联网围绕数据中心围绕数据中心提供计算、存提供计算、存储、网络、应储、网络、应用服务用服务用户通过智能用户通过智能移动终端更加移动终端更加广泛地接入互广泛地接入互联网联网海量、异构、实时海量、异构、实时数据存储、组织、数据存储、组织、分析和处理分析和处理三者彼此交叠,相辅相成,呈现视角和关注点的不同三者彼此交叠,相辅相成,呈现视角和关注点的不同大数
10、据大数据/云计算云计算/移动互联网移动互联网本质上均是互联网计算及其延伸本质上均是互联网计算及其延伸47大数据大数据/云计算云计算/移动互联网移动互联网本质上均是互联网计算及其延伸本质上均是互联网计算及其延伸先解决数据存储的问题Google集装箱数据中心 位于 Mountain View,Calif 总部的数据中心 总功率为10000千瓦,拥有45个集装箱,每个集装箱中有1160台服务器,该数据中心的能效比为1.25(PUE 为 1 表示数据中心没有能源损耗,而根据2006年的统计,一般公司数据中心的能效比为 2.0 或更高。Google 的 1.16 已经低于美国能源部2011年的1.2 的
11、目标)Google的低成本之道 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务 全世界多个数据中心,有些附带发电厂 运营商向Google倒付费51Google的三篇论文52先解决计算的问题Google使用GFS进行分布式存储53再解决计算的问题Google使用Map-reduce思想计算PR第一二列在一台电脑(每个电脑存储着若干个列)【几个列就把q特征向量送过几个值来用于计算】,q1*第一列+q2*第二列;每个节点做类似的事情-发到一个目标节点,把所有节点加起来。q1-q2-直到收敛。这个思想就是mapreduc
12、e.54再解决实时计算的问题Google使用Bigtable思想进行数据库存储55GoogleGoogle不愿意公开更多的细节不愿意公开更多的细节56Hadoop的出现 Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎 对于大数量的场景,Lucene面对与Google同样的困难。迫使Doug Cutting学习和模仿Google解决这些问题的办法 一
13、个微缩版:Nutchnutch 的初衷:创建一个开源的全网搜索引擎。抵抗Google在搜索领域的垄断。Nutch:2002 Hadoop的初衷是为解决Nutch的海量问题。57从lucene到nutch,从nutch到hadoop2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升Yahoo招安Doug Cutting及其项目Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的 一部分正式引入Apache基金会。2006 年 3 月
14、份,Map-Reduce 和Nutch Distributed File System(NDFS)分别被纳入称为 Hadoop 的项目中58Doug Cutting59HDFS/Mapreduce登场HDFSM/R60名字来源于Doug Cutting儿子的玩具大象61目前Hadoop达到的高度 实现云计算的事实标准开源软件 包含数十个具有强大生命力的子项目 已经能在数千节点上运行,处理数据量和排序时间不断打破世界纪录62Hadoop分布式体系6363天下之势,分久必合,合久必分64Hadoop的思想65Hadoop 166Hadoop2Hadoop2、spark(UC伯克利大学研发框架,ya
15、hoo率先用)、Storm新的数据分析平台hadoop1的核心组成是两部分,即HDFS和MapReduce。在hadoop2中变为HDFS和Yarn。新的HDFS中的NameNode不再是只有一个了,可以有多个(目前只支持2个)。每一个都有相同的职能。67Hadoop1Hadoop268Hortonworks Solution69Storm构建大数据实时计算Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。70Spark构建大数据实时计算Spark是基于map reduce算法所实现的分布式计算框架,拥有Hadoop MapReduce所具有的优点;不同于MapRe
16、duce的是Job中间输出和结果可以保存在内存中,而不需要读写HDFS,因此Spark能更好地适用于machine learning等需要迭代的map reduce算法。71Spark StreamSpark Streaming是Spark生态中一种具有高吞吐与容错性能的在线数据流的实时流处理框架。72实时计算初放光芒大数据 PK OracleOracle服务器配置参数服务器配置参数名称:浪潮英信服务器型号:NF8560M2CPU:intel xeon E7-4820核心:4颗CPU,每颗16核,共计64核内存:32GB硬盘:18T软件环境软件环境操作系统:Redhat数据库:Oracle 1
17、1g集群主机配置集群主机配置 3个主节点个主节点(NameNode、SNameNode、jobtracker):型号:IBM x3650 M3 CPU:六核2.8*2 内存:24G 硬盘:8T 10个数据节点:个数据节点:型号:IBM x3650 M3 CPU:六核2.8*2 内存:16G 硬盘:8T软件环境:软件环境:操作系统:CentOS 6.5 大数据管理平台软件1.0大数据平台环境参数大数据平台环境参数Oracle环境参数环境参数场景一:直系亲属以户成员信息和人员基本信息两张表进行关联查询,根据身份证号或者姓名查询人员的直系亲属信息场景描述场景描述p 测试2000万条人员数据,分别加载
18、2000万数据到Oracle和大数据管理平台;p 在Oracle中,对2000万条数据创建索引、加大临时表空间等查询优化操作;p 在大数据管理平台中,对2000万条数据进行压缩、分区、预处理等操作来减少数据的存储量、提高数据查询速度;p 根据具体身份证号查询直系亲属;p 分别查询三次,并做记录,统计查询返回结果所需时间的平均值测试过程测试过程u Oracle分别为12秒、11秒、15秒,平均查询时间:12.7秒秒u 大数据管理平台分别为421毫秒、415毫秒、438毫秒,平均查询时间:0.42秒秒测试结果测试结果场景二:宾馆同行人加载宾馆住宿信息至Oracle和大数据管理平台中,根据身份证号查
19、询退房时间间隔不超过20分钟,并且三次以上的人场景描述场景描述p 测试10亿条相同的数据,分别加载10亿数据到Oracle和大数据管理平台;p 在Oracle中,对10亿条数据创建索引、加大临时表空间等查询优化操作;p 在大数据管理平台中,对10亿条数据进行压缩、分区、预处理等操作来减少数据的存储量、提高数据查询速度;p 根据具体身份证号查询宾馆同行人;p 分别查询三次,并做记录,统计查询返回结果所需时间的平均值测试过程测试过程u Oracle,经过多次杀死查询进程,重新查询及增加内存和临时表空间等操作后,查得三次结果为:140分13秒、120分50秒、100分24秒,平均查询时间:120分分
20、29秒秒u 大数据管理平台为32104毫秒、31050毫秒、30048毫秒,平均查询时间:31.1秒秒测试结果测试结果场景三:网吧同行人加载网吧同行人信息至Oracle和大数据管理平台中,根据身份证号查询下机时间间隔不超过20分钟,并且三次以上的人员场景描述场景描述p 测试15亿条相同的数据,分别加载15亿数据到Oracle和大数据管理平台;p 在Oracle中,对15亿条数据创建索引、加大临时表空间等查询优化操作;p 在大数据管理平台中,对15亿条数据进行压缩、分区、预处理等操作来减少数据的存储量、提高数据查询速度;p 根据具体身份证号查询网吧同行人;p 分别查询三次,并做记录,统计查询返回
展开阅读全文