大数据课程精品PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据课程精品PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 课程 精品 PPT 课件
- 资源描述:
-
1、1第八章 大数据Big DataBig Data8.1 大数据概论(背景) 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。8.1 大数据概论(背景)全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5
2、 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据新的时代,人们从信息的被动接受者变成了主动创造者8.1 大数据概论(背景)谷歌Big Data 搜索趋势58.1 大数据概论(定义)Teradata Magazine大数据超出了常用硬件环境和软件工具在可接受的时间为其用户收集,管理和处理数据的能力 麦肯锡大数据是指大小超出了典型数据库软件工具收集,存储,管理和分析能力的数据集 大数据
3、=海量数据+复杂的数据类型 任何超过了一台计算机处理能力的庞大数据量 68.1 大数据概论(4V特性)体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效78.1 大数据概论(4V特性)88.1 大
4、数据概论机遇与挑战挑战1. 相关人才紧缺2. 隐私与数据安全3. 技术层面4. 企业管理体制98.1 大数据概论机遇与挑战机遇1. 企业变革的最佳时机2. 推动政府信息透明化3. 推动信息产业的发展108.1 大数据概论发展趋势发展趋势1. 应用软件泛互联网化(跨平台,门户化,碎片化)2. 行业应用的垂直整合3. 数字资产化4. 决策智能化118.2 大数据应用表1 大数据在各行业创造的价值美国医疗服务业每年价值3000亿美元大约0.7%的年生产率增长欧洲公共部门管理每年价值2500亿欧元(约3500亿美元)大约0.5%的年生产率增长全球个人位置数据服务提供商收入1000亿美元或以上最终用户价
5、值达7000亿美元美国零售业净利润增长水平为60%或以上0.5%-1%的年生产率增长制造业产品开发、组装成本降低达50%运营资本降低达7%8.2 大数据应用举一个简单的例子:举一个简单的例子:商家针针对对性性地地给给客客户户提提供供广广告告与与优优惠惠信信息息消费消费服务服务8.2 大数据应用应用可能性应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;注:注:该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值Hig
6、hHighMidMidLowLowLowLowMidMidHighHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度契合度流通零售制造148.3 大数据分析大数据与云计算云计算是以服务的方式通过互联网向用户提供可动态伸缩的虚拟化资源的一种计算模式,既包括以服务形式提供的应用,也包括数据中心中提供这些服务的软硬件。 “云计算”(Cloud Computing)是分布式处理(Distributed Computin
7、g)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。 百度百科158.3 大数据分析大数据与云计算AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个Eric BrewerEric BrewerCConsistencyPPartition Tolerance分布式计算研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。168.3 大数据分析大数
8、据与云计算Amazon Dynamo是一个经典的分布式Key-Value 存储系统,具备去中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多场景中牺牲了一致性。支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒级的不一致分布式处理17大数据云计算总体关系云计算为大数据提供了有力的工具和途径,大数据为云计算提供了用武之地。相同点都是为数据存储和处理服务都需要占用大量的存储和计算资源,因而都要用到海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术差异点背景现有的数据处理技术不能处理互联网和物联网产生的大量异构数据,但是这些数据价值又非常大基于互联网的相关服务日
9、益丰富和频繁目的充分挖掘海量数据中的信息通过互联网更好地调用、扩展和管理计算及存储方面的资源和能力对象数据IT资源、能力和应用推动力量从事数据存储和处理软件厂商和拥有大量数据的企业生产计算及存储设备的厂商、拥有计算及存储资源的企业带来的价值发现数据中的价值节省IT部署成本大数据与云计算比较188.3 大数据分析数据分析的发展历程1. 存储管理(手工,文件,计算机)2. 数据仓库3. 联机分析4. 数据挖掘5. 商务智能6. 大数据分析198.3 大数据分析8.3 大数据分析大数据处理流程挑战1. 高并发数2. 算法复杂3. 实时处理要求高218.3 大数据分析228.3 大数据分析数据处理模型
10、批处理:流处理:流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。Twitter的Storm、Yahoo的S4 MapReduce并行编程模型是最典型的批处理模式 238.3 大数据分析数据处理模型大数据处理的一些基本思路l 在前端就地采用流处理进行即时处理、过滤掉非重要数据l 把数据预处理成适于快速分析的格式l 增量计算-也即先顾眼前的新数据,再去更新老数据l 内存计算,减少数据的移动248.3 大数据分析关键技术下图展示了Google的技术演化过程:258.3 大数据分析数据采集数据采集是从本地数据库、互联网、物联网等数据源导入数据,包括
展开阅读全文