书签 分享 收藏 举报 版权申诉 / 63
上传文档赚钱

类型大数据课程精品PPT课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2458559
  • 上传时间:2022-04-20
  • 格式:PPT
  • 页数:63
  • 大小:3.23MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据课程精品PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 课程 精品 PPT 课件
    资源描述:

    1、1第八章 大数据Big DataBig Data8.1 大数据概论(背景) 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。8.1 大数据概论(背景)全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5

    2、 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据新的时代,人们从信息的被动接受者变成了主动创造者8.1 大数据概论(背景)谷歌Big Data 搜索趋势58.1 大数据概论(定义)Teradata Magazine大数据超出了常用硬件环境和软件工具在可接受的时间为其用户收集,管理和处理数据的能力 麦肯锡大数据是指大小超出了典型数据库软件工具收集,存储,管理和分析能力的数据集 大数据

    3、=海量数据+复杂的数据类型 任何超过了一台计算机处理能力的庞大数据量 68.1 大数据概论(4V特性)体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效78.1 大数据概论(4V特性)88.1 大

    4、数据概论机遇与挑战挑战1. 相关人才紧缺2. 隐私与数据安全3. 技术层面4. 企业管理体制98.1 大数据概论机遇与挑战机遇1. 企业变革的最佳时机2. 推动政府信息透明化3. 推动信息产业的发展108.1 大数据概论发展趋势发展趋势1. 应用软件泛互联网化(跨平台,门户化,碎片化)2. 行业应用的垂直整合3. 数字资产化4. 决策智能化118.2 大数据应用表1 大数据在各行业创造的价值美国医疗服务业每年价值3000亿美元大约0.7%的年生产率增长欧洲公共部门管理每年价值2500亿欧元(约3500亿美元)大约0.5%的年生产率增长全球个人位置数据服务提供商收入1000亿美元或以上最终用户价

    5、值达7000亿美元美国零售业净利润增长水平为60%或以上0.5%-1%的年生产率增长制造业产品开发、组装成本降低达50%运营资本降低达7%8.2 大数据应用举一个简单的例子:举一个简单的例子:商家针针对对性性地地给给客客户户提提供供广广告告与与优优惠惠信信息息消费消费服务服务8.2 大数据应用应用可能性应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;注:注:该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值Hig

    6、hHighMidMidLowLowLowLowMidMidHighHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度契合度流通零售制造148.3 大数据分析大数据与云计算云计算是以服务的方式通过互联网向用户提供可动态伸缩的虚拟化资源的一种计算模式,既包括以服务形式提供的应用,也包括数据中心中提供这些服务的软硬件。 “云计算”(Cloud Computing)是分布式处理(Distributed Computin

    7、g)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。 百度百科158.3 大数据分析大数据与云计算AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个Eric BrewerEric BrewerCConsistencyPPartition Tolerance分布式计算研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。168.3 大数据分析大数

    8、据与云计算Amazon Dynamo是一个经典的分布式Key-Value 存储系统,具备去中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多场景中牺牲了一致性。支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒级的不一致分布式处理17大数据云计算总体关系云计算为大数据提供了有力的工具和途径,大数据为云计算提供了用武之地。相同点都是为数据存储和处理服务都需要占用大量的存储和计算资源,因而都要用到海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术差异点背景现有的数据处理技术不能处理互联网和物联网产生的大量异构数据,但是这些数据价值又非常大基于互联网的相关服务日

    9、益丰富和频繁目的充分挖掘海量数据中的信息通过互联网更好地调用、扩展和管理计算及存储方面的资源和能力对象数据IT资源、能力和应用推动力量从事数据存储和处理软件厂商和拥有大量数据的企业生产计算及存储设备的厂商、拥有计算及存储资源的企业带来的价值发现数据中的价值节省IT部署成本大数据与云计算比较188.3 大数据分析数据分析的发展历程1. 存储管理(手工,文件,计算机)2. 数据仓库3. 联机分析4. 数据挖掘5. 商务智能6. 大数据分析198.3 大数据分析8.3 大数据分析大数据处理流程挑战1. 高并发数2. 算法复杂3. 实时处理要求高218.3 大数据分析228.3 大数据分析数据处理模型

    10、批处理:流处理:流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。Twitter的Storm、Yahoo的S4 MapReduce并行编程模型是最典型的批处理模式 238.3 大数据分析数据处理模型大数据处理的一些基本思路l 在前端就地采用流处理进行即时处理、过滤掉非重要数据l 把数据预处理成适于快速分析的格式l 增量计算-也即先顾眼前的新数据,再去更新老数据l 内存计算,减少数据的移动248.3 大数据分析关键技术下图展示了Google的技术演化过程:258.3 大数据分析数据采集数据采集是从本地数据库、互联网、物联网等数据源导入数据,包括

    11、数据的提取、转换和加载(ETL,Extracting Transforming Loading)。主要工具:Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe268.3 大数据分析数据采集主要挑战:一:如何自动、实时地对接收的海量数据按照特定策略进行过滤,丢弃无效信息,从而大幅度降低后续存储和处理的压力二:如何自动生成元数据、准确描述数据出处、获得途径和环境等背景信息278.3 大数据分析数据存储主要挑战:一:容量扩展性 要求底层存储架构和文件系统以低成本的方式及时按需扩展存储空间二:数据格式可扩展 满足各种非结构化数据的管理需求288.3 大数据分析数据

    12、存储1. 单台机器物理上的限制2.不断提升硬件配置也难以跟上数据的增长速度 3.当今主流的计算机硬件比较便宜而且可以扩展 分布式存储298.3 大数据分析数据存储直接采用关系模型的分布式数据库并不能适应大数据时代的数据存储,主要因为:1.规模效应所带来的压力2.数据类型的多样化3.设计理念的冲突4.数据库事务特性面对这些挑战,以Google 为代表的一批技术公司纷纷推出了自己的解决方案:1.Google的Bigtable2.Amazon的Dynamo3.Yahoo的PNUTS308.3 大数据分析数据存储这些方案现在被统一的称为NoSQL(Not Only SQL)。NoSQL并没有一个准确的

    13、定义,但一般认为NoSQL数据库应当具有以下的特征:1.模式自由(schema-free)2.支持简易备份(easy replication support)3.简单的应用程序接口(simple API)4.最终一致性(或者说支持BASE特性,不支持ACID)5.支持海量数据(Huge amount of data)。318.3 大数据分析数据存储数据存储:1. 列存储与行存储并行2. NoSQL数据库作为对关系型数据库的补充 328.3 大数据分析数据存储比如:传统的关系型数据库在存储学生数据时,必须先定义一张学生信息表,如果以后要增加学生的一些属性,则必须对这张表的模型进行修改。而NoSQ

    14、L数据库不需要预先定义存储数据时的存储模型 。图 学生A和学生B的NoSQL存储形式338.3 大数据分析MapReduceMap-Reduce 系统由廉价而通用的普通服务器构成,通过添加服务器节点的方式可线性扩展处理能力(ScaleOut),在成本和可扩展性上有巨大的优势。MapReduce架构能够满足“先存后处理”的离线批量计算需求。但也存在局限性,其中最大的问题是时延过大,难以适用机器学习迭代、流处理等实时计算任务。34MapReduceMPI设计目的用于互联网服务使用大量廉价PC耦合度低节点是效率高有容错机制用于科学计算多使用专用并行机耦合度高节点失效率低无备份使用方式系统自动选择计算

    15、节点,分布式处理对用户透明计算节点由开发者指定对文件系统的支持支持分布式文件系统通过Map/Reduce函数实现分布并行运算不支持分布式文件系统,数据集中存储由高级语言通过调用标准函数传递消息实现并行计算MapReduce与分布式计算(MPI)比较358.3 大数据分析MapReduce利用MapReduce并行计算模型来执行任务,由以下几个部分协调完成。1.客户端:即用户与计算机交互的接口;2.Master:负责调度整个任务的执行,一般一个集群中只有一个Master;3.Worker:任务的真正执行者,执行Map任务的称之为Mapper,执行 Reduce任务的称之为Reducer。执行一个

    16、任务时需要多个Worker;4.分布式文件系统:负责存储输入输出的数据。 368.3 大数据分析MapReduce具体流程如下:具体流程如下:(1) 分割文件:MapReduce数据库将输入文件分割为M个文件块,大小为 16MB-64MB,然后启动集群中各机器进行备份;(2) 指派MapReduce任务:Master程序给空闲的Worker程序指派任务;(3) 读取:被分配到任务的Worker读取文件块作为输入,并生成键值对 (key/value),通过自定义函数Map将(key/value)进行处理,得到 中间结果(key/value),将其存入缓存区;378.3 大数据分析MapReduc

    17、e 本地写入:将缓存区中的中间结果(key/value)周期性写入本地磁盘,并将它们在本地磁盘的位置信息发送给Master,然后由Master将位置信息发送给Reduce Worker; 远程读写:Worker 得到数据位置信息后,根据位置信息通过远程方式读取本 地磁盘上的中间数据,并通过关键字对数据进行合并、排序;(6) 写到输出文件:当Worker遍历所有中间数据之后,将key和相应中间value传递给用户自定义的Reduce函数,结果将被输出到一个最终的输出文件;(7) 返回结果:所有任务完成之后,返回用户程序调用点。388.3 大数据分析MapReduce8.3 大数据分析大数据分析M

    18、apReduceMapReduce数据流程图 398.3 大数据分析MapReduce比如,利用MapReduce在给定的巨型文本中计算单词出现的次数。如图408.3 大数据分析MapReduce第一步:自动对文本进行分割至对;418.3 大数据分析MapReduce第二步:在分割之后的每一对进行用户定义的Map进行处理,再生成新的对 428.3 大数据分析MapReduce第三步:对输出的结果集归拢、排序;438.3 大数据分析MapReduce第四步:通过Reduce操作生成最后结果。448.3 大数据分析未来主要方向:l 基于深度神经网络的深度学习技术(Deep Learning)l 数

    19、十亿节点的大规模神经网络构建458.3 大数据分析数据展现目的:以更直观和互动的方式展示分析结果,便于人们理解未来主要方向:可视化技术多与Web技术相结合,以图形或图像的格式呈现,比如SVG一系列的绘图技术和最新的HTML5 的画布等。未来三维动态呈现是趋势。468.3 大数据分析主流平台(Hadoop)特性说明可扩展性横向大规模可扩展高性能快速响应复杂查询与分析高容错性允许单节点出现错误,出现错误时,无需重新开始向下兼容性支持传统的商务智能工具支持异构环境对硬件要求不高,适应性强低成本尤其是扩展时成本较低较低的分析延迟能对变化做出快速反映大数据平台特性478.3 大数据分析主流平台(Hado

    20、op)Hadoop主要组件488.3 大数据分析主流平台(Hadoop)lZookeeper为分布式协调系统;lMapReduce为并行编程模型;lHDFS为分布式文件系统;lHBase为Key-value数据库;lHive为数据仓库软件包;lPig为数据处理平台,提供一种语音叫Pig Latin,可以将SQL语句转化成MapReduce运算 49508.3 大数据分析Hadoop优点:1. 高扩展性2. 高效性3. 高可靠性4. 高容错性518.4大数据分析Hadoop不足:l在当前Hadoop的设计中,所有的metadata操作都要通过集中式的NameNode来进行,NameNode有可能

    21、是性能的瓶颈 l当前版本的Hadoop不支持一些操作,比如完全可读写的文件系统等等 528.3大数据解决方案538.3大数据案例腾讯548.3大数据案例腾讯558.3大数据案例腾讯568.3大数据案例腾讯578.3大数据案例腾讯588.3大数据案例腾讯598.3大数据案例腾讯608.3大数据案例腾讯618.3大数据案例腾讯 结束语当你尽了自己的最大努力时,失败也是伟大的,所以不要放弃,坚持就是正确的。When You Do Your Best, Failure Is Great, So DonT Give Up, Stick To The End谢谢大家荣幸这一路,与你同行ItS An Honor To Walk With You All The Way演讲人:XXXXXX 时 间:XX年XX月XX日

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据课程精品PPT课件.ppt
    链接地址:https://www.163wenku.com/p-2458559.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库