大数据分析和内存计算课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据分析和内存计算课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 内存 计算 课件
- 资源描述:
-
1、路漫漫其悠远路漫漫其悠远2022-6-2大数据分析和内存计算大数据分析和内存计算路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远路漫漫其悠远2022-6-2大数据(Big Data)时代来临移动互联网Mobile Internet物联网Internet of Things新量级、新处理模式、新企业智能路漫漫其悠远路漫漫其悠远2022-6-2在Web 2.0时代,人们从信息的被动接受者变成了主动创造者路漫漫其悠远路漫漫其悠远2022-6-2大数据举例互联网:社交网络、视频、图片、
2、电子商务物联网:移动设备、传感器天文、地理、环境、气象、交通信息扫描书籍、历史文献、社会交互信息医疗扫描、电子病历路漫漫其悠远路漫漫其悠远2022-6-2大数据典型应用搜索引擎: Google 、Bing、Baidu、电子商务:淘宝、京东、Amazon、eBay零售业:Walmart 可能净利润增长水平为60%或以上政府公共服务欧洲政府部门每年3500亿美元,大约每年0.5%的增长率医疗服务美国每年3000亿美元,大约每年0.7%的增长率制造业产品开发、组装成本降低50%路漫漫其悠远路漫漫其悠远2022-6-2大数据潜力不同行业中,企业信息化成熟度差异明显不同行业中,企业信息化成熟度差异明显政
3、府政府 等行业等行业 的信息化成熟的信息化成熟 度明显领先,总度明显领先,总 体体处于扩展和处于扩展和 整合优整合优 化阶段化阶段 ;除金融和电信之外的服务行业的信息化建设成除金融和电信之外的服务行业的信息化建设成熟度相对较低熟度相对较低,仍处仍处 在成长阶段。在成长阶段。对大数据的处理需求将启发对于对大数据的处理需求将启发对于IT系统投资新系统投资新热点,证实热点,证实IT推动业务发展,增加对推动业务发展,增加对IT投资。投资。从从IT系统走向大数据决策分析系统走向大数据决策分析未来着眼点在于服务未来着眼点在于服务2000制造业制造业金融金融电信电信政府政府互联网企业互联网企业自动化走向初步
4、信息化自动化走向初步信息化快速发展快速发展整体解决方案需求整体解决方案需求年年600亿投资规模亿投资规模信息化走向移动互联化信息化走向移动互联化基本架构已经建立基本架构已经建立相对成熟相对成熟500亿以上投资规模亿以上投资规模手工化向自动化转型:手工化向自动化转型:成熟度低成熟度低成长阶段成长阶段中国建筑信息化投入中国建筑信息化投入占总收入占总收入0.03%建筑建筑流通流通移动互联化数据智能化大数据路漫漫其悠远路漫漫其悠远2022-6-2大数据潜力路漫漫其悠远路漫漫其悠远2022-6-2国外大公司的角逐 Google:满足用户需求,将互联网将变得越来越智能。:满足用户需求,将互联网将变得越来越
5、智能。 Facebook:人际网络,创造新的需求。:人际网络,创造新的需求。 Google利用好用的、免费得软件产品,换取对用户的理解;通过精准的利用好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道,颠覆了微软卖软件拷贝赚钱的模式。广告,找到生财之道,颠覆了微软卖软件拷贝赚钱的模式。互联网越来越智能互联网越来越智能Google精确掌握用户行为、获取需求精确掌握用户行为、获取需求路漫漫其悠远路漫漫其悠远2022-6-2国内大数据计划国内各地制定云计算国内各地制定云计算“十二五十二五”规划规划云计算、物联网园区云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这
6、些工程的初始着眼点在房地产,政中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。 云计算、物联网、社交化媒体、云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。分析
7、的技术发展,我们即将步入基于大数据的智能化时代。路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据背景大数据由来大数据由来大数据定义大数据定义大数据与相关领域的关系大数据与相关领域的关系大数据挑战大数据挑战大数据现有系统大数据现有系统大数据现有关键技术大数据现有关键技术课程介绍课程介绍课程考核课程考核路漫漫其悠远路漫漫其悠远大数据诞生大数据诞生Big Data专刊IT企业研究报告科学研究“第四范式”“十二五”规划美国重大研究计划Dealing with Data专刊路漫漫其悠远路漫漫其悠远传染病预测海啸实时预警搜索与电子商务大数据研究意义智能交通路漫漫其悠远路漫漫其悠远大数据研究意义
8、 居民消费价格指数(CPI) CPI意义: 与民生密切相关的国家 经济决策重要指标 反映通货膨胀率 目前存在问题: “滞后、不科学” 原社科院金融发展室主任易宪容 “86%认为CPI与消费感受不符合”中国政协网如何准确计算分析CPI 大数据计算路漫漫其悠远路漫漫其悠远大数据定义及特点大数据定义及特点大数据是通过传统数据库技术和数据处理工具不能处理的庞大而复杂的数据集合。5亿用户8亿商品20亿PV/天用户评论3万条/秒5万订单/分钟路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远
9、路漫漫其悠远2022-6-2什么是“大数据”?海量数据(信息)非结构化数据Hadoop+Map/Reduce云计算数据 (Cloud Data)数据密集型计算数据(DIC Data)路漫漫其悠远路漫漫其悠远2022-6-2大数据的性质(4V)VolumeVolume海量的数据规模海量的数据规模VarietyVariety多样的数据类型多样的数据类型ValueValueVelocityVelocity快速的数据流转快速的数据流转巨大的数据价值巨大的数据价值路漫漫其悠远路漫漫其悠远2022-6-2大数据的性质实例城市计算速度快(Velocity)北京出租车每分钟400万条定位数据类型多(Varie
10、ty)POI、路网、轨迹、路况、评论价值密度低(Value)特殊事件(赛事、事故)用户评论(污染、堵塞)规模大(Volume)街旁网有1亿次签到数据机器&人工路漫漫其悠远路漫漫其悠远2022-6-2大数据 外延与应用密切相关的各类数据,强调对于支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构、质量差的数据生产数据、设计数据、统计数据文本、多媒体数据、各种文档数据Heterogeneous Information Network世界上的数据80%是非结构化数据80-20规则路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现
11、有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远路漫漫其悠远2022-6-2与大数据相关的几个热点问题非结构化数据云计算与大数据Hadoop + HDFS + Map/ReduceNoSQL路漫漫其悠远路漫漫其悠远2022-6-2什么是半结构化/ /非结构化数据23Social MediaMachine / SensorDOC / MediaWeb ClickstreamAppsCall LogLog路漫漫其悠远路漫漫其悠远2022-6-2云计算与大数据云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式云计算是继大型主机、PC、互联网之后的IT领域的最新一次
12、重大变革Amazon和Google是始作俑者虽然云计算和大数据是沿着不同的道路发展而来的,两者在技术和应用上相辅相成云计算提供的服务离不开它所能承载的大数据解决大数据的挑战,云计算模式是可行的方案云计算遭遇大数据是发展的必然趋势云计算遭遇大数据是发展的必然趋势路漫漫其悠远路漫漫其悠远云计算与大数据云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式云计算是继大型主机、PC、互联网之后的IT领域的最新一次重大变革Amazon和Google是始作俑者云计算技术、CTO、成本大数据业务、CEO、价值云计算遭遇大数据是发展的必然趋势云计算遭遇大数据是发展的必然趋势路漫漫其悠
13、远路漫漫其悠远2022-6-2Amazon 云服务弹性计算云EC2简单存储服务S3简单数据库服务Simple DB简单队列服务SQS弹性MapReduce服务内容推送服务CloudFront电子商务服务DevPay灵活支付服务FPS路漫漫其悠远路漫漫其悠远2022-6-2大数据技术就是Hadoop+M/R?来源于Google,在类似搜索引擎的查询并行化分析处理领域取得极大成功针对大规模数据密集型应用的编程范式(programming paradigm)所基于的BigTable和HDFS 是非常质朴的数据模型和存储系统适用领域有限,为大数据研究打开了思路,但绝不代表大数据技术全部回到起点来重新审
14、视数据管理之目的回到起点来重新审视数据管理之目的路漫漫其悠远路漫漫其悠远MapReduceMapReduce是一种编程模型,用于大规模数据集(一般大于1TB)的并行运算的实现特性用户自定义函数自动并行化容错I/O调度监听路漫漫其悠远路漫漫其悠远2022-6-2MapReduce路漫漫其悠远路漫漫其悠远Hadoop一个分布式系统和并行执行环境Hadoop这个框架实现了MapReduce,方便用户海量处理数据特点:扩容能力强成本低高效率可靠性适合场景大数据分析离线分析不适合场景少量数据复杂数据在线分析路漫漫其悠远路漫漫其悠远2022-6-2大数据和数据库的关系数据库界从一开始就探索过,但还是过于保
15、守忘不掉ACID,舍不得Relation,忽视实际应用沉浸在自己的世界里空值理论(Null Value),泛关系 (Universal Relation)数据库设计的范式理论(FD, MVD, 4NF,5NF,)潜意识地奉行“一招鲜”(One Size Fits All, OSFA)Hadoop+Map/Reduce+Bigtable+HDFS响亮一击回到起点来考虑数据管理问题,豁然开朗大数据是数据库的自然延伸大数据是数据库的自然延伸路漫漫其悠远路漫漫其悠远2022-6-2数据库 关系代数 索引 查询优化 事务处理姓名姓名学号学号班级班级年龄年龄性别性别住址住址籍贯籍贯电话电话张三100计91
16、20男北京海淀北京89150李四200计9219男北京东城北京88888王五300计9318女北京西城北京77777赵六400计9419女北京朝阳北京99999刘七500计9521男北京丰台北京88666课程名课程名课程号课程号地点地点教师教师DB15101李国良DB25102冯建华DM35103王建勇学号学号课程课程号号分数分数100199200198300297路漫漫其悠远路漫漫其悠远2022-6-2路漫漫其悠远路漫漫其悠远2022-6-2路漫漫其悠远路漫漫其悠远2022-6-2事务处理 原子性(原子性(AtomicityAtomicity) - 不可分割不可分割 一致性(一致性(Cons
17、istencyConsistency)- - 前后一致前后一致 隔离性(隔离性(IsolationIsolation)- - 并发并发 持久性(持久性(DurabilityDurability)- - 永久永久路漫漫其悠远路漫漫其悠远2022-6-2大数据的系统需求High performance 高并发读写的需求高并发、实时动态获取和更新数据Huge Storage 海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询High Scalability & High Availability 高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间
18、断服务路漫漫其悠远路漫漫其悠远2022-6-2高并发读写大数据存储的大数据存储的 核心需求核心需求高效率存储 和访问高可扩展性和高可用性低成本建设运维l 保证一致性的开销过大,难以实现高并发l 存储性能受限于控制器,性能难以保证l 关系型表单存储难以适应不同数据类型l 上亿行数据的超级达标效率极低l 传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高l 许可和维护花费高昂l 无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展l 数据库升级需要停机维护和数据迁移,导致服务中断l 不保证遵循ACID原则,提高并发读写性能l Schema-Free存
展开阅读全文