书签 分享 收藏 举报 版权申诉 / 32
上传文档赚钱

类型大数据技术导论课件32.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4091157
  • 上传时间:2022-11-10
  • 格式:PPT
  • 页数:32
  • 大小:7.49MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据技术导论课件32.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 技术 导论 课件 32
    资源描述:

    1、大数据技术大数据技术 导论导论123什么是大数据什么是大数据 定义定义1 1:大数据是指无法在一定时间内用常大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)和处理的数据集合(维基百科定义)Big data usually includes data sets with Big data usually includes data sets with sizes beyond the ability of commonly-used sizes beyond the ability of commonly-used s

    2、oftware tools to capture,curate,manage,software tools to capture,curate,manage,and process the data within a tolerable and process the data within a tolerable elapsed time.-Wikielapsed time.-Wiki4什么是大数据什么是大数据定义定义2 2:3V3V Big Data are Big Data are high-volume,high-high-volume,high-velocity,and/or hig

    3、h-variety velocity,and/or high-variety information assets that require information assets that require new new forms forms of processing to enable enhanced of processing to enable enhanced decision making,insight discovery and decision making,insight discovery and process optimization-process optimi

    4、zation-GartnerGartner VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天5q大数据及其大数据及其4V4V特征特征海量数据规模(海量数据规模(volume):):TBTB级级 PB PB级级快速处理(快速处理(velocity):):快速数据流转和动态数据体系快速数据流转和动态数据体系多样数据类型(多样数据类型(variety):):数据类型繁杂数据类型繁杂巨大数据价

    5、值(巨大数据价值(value):):价值稀疏、多样、不确定价值稀疏、多样、不确定q值得关注的大数据的若干研究方向值得关注的大数据的若干研究方向分布式数据存储与管理:分布式数据存储与管理:对大数据进行存储与管理对大数据进行存储与管理数据挖掘与商务智能:数据挖掘与商务智能:对大数据规律进行挖掘与发现对大数据规律进行挖掘与发现物联网与物联网与CPSCPS:产生与形成大数据产生与形成大数据云计算及服务平台:云计算及服务平台:存储和处理大数据及其业务存储和处理大数据及其业务关注点:关注点:海量数据处理海量数据处理 =分布式存储与管理分布式存储与管理 =云计算云计算 =数据挖掘与分析数据挖掘与分析 =海量

    6、业务处理海量业务处理 =大服务大服务7什么是大数据什么是大数据定义定义3:3:当数据的当数据的规模和性能要求规模和性能要求成为数据管理分析系成为数据管理分析系统的统的重要设计和决定因素重要设计和决定因素时,这样的数据就被称为时,这样的数据就被称为大数据大数据 不是简单地以数据规模来界定大数据,要考虑数据查不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度询与分析的复杂程度以目前计算机硬件的发展水平看以目前计算机硬件的发展水平看 针对针对简单查询简单查询(如关键字搜索),数据量为(如关键字搜索),数据量为TBTB至至PBPB级级时可称为大数据时可称为大数据 针对针对复杂查询复杂查询

    7、(如数据挖掘),数据量为(如数据挖掘),数据量为GBGB至至TBTB级级时时即可称为大数据即可称为大数据8什么是大数据什么是大数据 定义定义4:4:大数据有两个基本特征不同于传统的数据大数据有两个基本特征不同于传统的数据集:集:1.1.大数据不一定存储于固定的数据库,而大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间是分布在不同地方的网络空间 2.2.大数据以半结构化或非结构化数据为主,大数据以半结构化或非结构化数据为主,具有较高的复杂性。具有较高的复杂性。9克强指数(Li keqiang index):耗电量铁路货运量银行贷款发放量英国著名政经杂志经济学人认为:克强指数比官方GD

    8、P数字更能反映中国经济的现实状况。花旗银行在编制时将各自权重分别设定为40%、25%和35%。12大数据涉及诸多不同的领域大数据涉及诸多不同的领域用户生成数据Deep Web数据多模态内容数据天文气象基因医学经济物理其他领域网络与关系数据13大数据的价值大数据的价值科研价值科研价值1998 年图灵奖得主、数据库技术奠基人Jim Gray认为数据驱动的研究将是第四种科学研究范式”The Fourth Paradigm:Data-Intensive Scientific Discovery”大数据已为多个不同学科的研究工作提供了宝贵机遇经济价值经济价值麦肯锡全球研究院:大数据可为世界经济创造巨大价

    9、值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%工业价值工业价值分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解二次开发:创造出新产品和服务。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式社会价值社会价值例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态其他价值其他价值Data is the next Intel Inside.The future

    10、belongs to the companies and people that turn data into products.-著名出版公司著名出版公司OReilly的创始人的创始人Tim OReilly深网深网挖掘挖掘深空深空探索探索20122012年我国神州年我国神州九号进入太空九号进入太空深海深海探测探测20122012年我国蛟龙号年我国蛟龙号探测水下探测水下70007000米米实现大数据价值的实现大数据价值的深度挖据和高度利用深度挖据和高度利用!大数据的深度资源挖掘与价值利用是国家战略大数据的深度资源挖掘与价值利用是国家战略 从从 深空深空 +深海深海 深网深网1415感知现在感知

    11、现在:历史数据与当前:历史数据与当前数据的融合数据的融合,潜在线索与潜在线索与模式的挖掘模式的挖掘,事件、群体与社会发展事件、群体与社会发展状态的感知状态的感知中国发展指数(物价、环境、健康)中国发展指数(物价、环境、健康)需求:需求:掌握现状,如淘宝掌握现状,如淘宝CPICPI、环境指数、环境指数难点:难点:PBPB级社会媒体数据,百亿级日志数据,级社会媒体数据,百亿级日志数据,结构与非结构数据关联,结构与非结构数据关联,历史与流式数据并存历史与流式数据并存犯罪线索挖掘犯罪线索挖掘需求:需求:发现线索发现线索,如罪犯行为轨迹如罪犯行为轨迹难点:难点:PBPB级日志数据、级日志数据、EBEB级

    12、监控数据中级监控数据中发现嫌疑人及其行为模式犹如发现嫌疑人及其行为模式犹如大海捞针大海捞针问题与挑战:问题与挑战:数据数据规模巨大、模态规模巨大、模态多样多样、关联复杂关联复杂、真伪难真伪难辨辨 现有数据处理方法现有数据处理方法感知度量难、特征融合难感知度量难、特征融合难、模式挖掘难模式挖掘难15联合国联合国“全球脉动全球脉动”(Global Pulse):(Global Pulse):利用网络大数据预测失业率与疾病爆发利用网络大数据预测失业率与疾病爆发等现等现象,利用数字化的早期预警信号来提前指导象,利用数字化的早期预警信号来提前指导援助项目。援助项目。问题与挑战:问题与挑战:数据数据交互性

    13、强、实时性强交互性强、实时性强、动态演变、动态演变,导致传统数据,导致传统数据计算方法:计算方法:数据生命周期的割裂、时效性数据生命周期的割裂、时效性与准确与准确性难以兼顾、演变趋势难以预测性难以兼顾、演变趋势难以预测基于基于Twitter Twitter 数据的选举结果预测数据的选举结果预测:通过对通过对TwitterTwitter等网上公开数据的实时感知、动等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选态获取与综合分析,结合仿真调控,预测大选结果。结果。预测未来:预测未来:全量数据、流式数据、离线数据全量数据、流式数据、离线数据的关联分析,的关联分析,态势与效应态势与

    14、效应的判定与调控的判定与调控,揭示事物发展的,揭示事物发展的演变规律演变规律,进而,进而对事物发展趋势进行预测对事物发展趋势进行预测1617美国的大数据规划美国的大数据规划-大数据上升为国家意志大数据上升为国家意志 2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“Big Data Research and Development Initiative”促进采集、存储、维护、管理、分析和共享海量数据的核心技术;利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术的人力资源。Core Technologies for Advancing Bi

    15、g Data Science&EngineeringData to Decisions1000 Genomes Project Data Available on CloudScientific Discovery Through Advanced ComputingBig Data for Earth System ScienceXDATA18欧盟的大数据规划欧盟的大数据规划-基础设施是先导基础设施是先导Horizon 2020-The Framework Programme for Research and Innovation面向大数据的数据信息化基础设施(E-Infrastructur

    16、e)是优先资助领域GRDI 2020-Global Research Data Infrastructures建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合FP7 Call 8 Intelligent Information Management -Big Data预算5千万欧元,2012-1-17截止目标:提升发现、分析、开采、使用大数据及其基础设施的能力 通过对大数据收集与分析创造更大价值 探索基于大规模互联数据资源与专用基础设施的新型科学研究 面向大数据的人力资源开发19学术界对大数据的关注n20122012年年1 1月,月,Natu

    17、re PhysicsNature Physics上出版专刊上出版专刊“ComplexityComplexity”q特别指出大数据为科学研究,特别是复杂性科学的研特别指出大数据为科学研究,特别是复杂性科学的研究提供了史无前例的机遇究提供了史无前例的机遇n20082008年,年,NatureNature出版专刊出版专刊“Big DataBig Data”q从互联网技术、互联网经济学、超级计算、环境科学、从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了大数据所带来的技术挑战生物医药等多个方面介绍了大数据所带来的技术挑战n20112011年,年,ScienceScience刊登

    18、专刊刊登专刊“Dealing with DataDealing with Data”q讨论了数据洪流(讨论了数据洪流(Data delugeData deluge)所带来的挑战,)所带来的挑战,也特别指出倘若能够更有效地组织和使用这些数据也特别指出倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用的巨大推动作用n20122012年年4 4月,欧洲信息学与数学研究协会会刊月,欧洲信息学与数学研究协会会刊ERCIM NewsERCIM News上上出版专刊出版专刊“Big DataBig Data”q讨论了大数据

    19、时代的数据管理、数据密集型研究的创新讨论了大数据时代的数据管理、数据密集型研究的创新数据库技术等问题,并介绍了欧洲科研机构开展的研究数据库技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展活动和取得的创新性进展20大数据会议/WorkshopBDA:International Conference on Big Data AnalyticsBDA:International Conference on Big Data Analytics http:/cs.du.ac.in/BDA2012/bda12.htmlhttp:/cs.du.ac.in/BDA2012/bda12.htm

    20、l 2012:122012:12月月24-2624-26日,印度;第日,印度;第1 1届届BigMine:Workshop on Big Data,Streams and BigMine:Workshop on Big Data,Streams and Heterogeneous Source Mining:Algorithms,Systems,Heterogeneous Source Mining:Algorithms,Systems,Programming Models and ApplicationsProgramming Models and Applications http:/ww

    21、w.big-data-mining.org/http:/www.big-data-mining.org/2012:2012:与与SIGKDDSIGKDD合办;合办;8 8月月1212日,北京;第日,北京;第1 1届届Big Data EuropeBig Data Europe系列会议系列会议 http:/www.big-data- 2012:2012:Zurich,Vienna,Paris,Frankfurt,LondonZurich,Vienna,Paris,Frankfurt,London 2013:Stockholm,Warsaw,Istanbul2013:Stockholm,Warsa

    22、w,IstanbulBig Data Analytics 2012Big Data Analytics 2012 http:/www.whitehallmedia.co.uk/bda/http:/www.whitehallmedia.co.uk/bda/6 6月月2020日,伦敦日,伦敦学术会议工业会议2224大数据总量增长态势大数据总量增长态势25目前大数据的规模目前大数据的规模IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021)。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多

    23、出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。26目前大数据规模目前大数据规模示例示例天文观测数据:天文观测数据:Sloan Digital Sky Survey:2000年部署 几周收集的数据比历史上收集的数据还多 每晚收集200G的数据,已收集了

    24、140TB=1.4x105GB的数据 Large Synoptic Survey Telescope:2016年完成部署 每5天可收集105GB的数据物理实验数据:物理实验数据:Large Hadron Collider:2010年一年产生13PB=1.3x107GB数据互联网数据:Facebook:用户超7亿,每月上传10亿照片,每天生成3x105GB日志数据 淘宝:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生2x104GB数据IBMIBM估计估计:全球每天生成2.5EB=2.5x109GB数据,90%的已有数据是过去两年生成的CiscoCisco预测预测:到2013年,互联网上的

    25、数据将达到667EB=6.67x1011GB271.1.收集的数据还没有实现高度共享和深度利用收集的数据还没有实现高度共享和深度利用2.2.超大规模:为保证可靠性,需要存储数据副本,超大规模:为保证可靠性,需要存储数据副本,实际存储的数据量数倍于净数据量实际存储的数据量数倍于净数据量3.3.时空属性:包含时间与位置信息时空属性:包含时间与位置信息4.4.模糊高维:数据未必精确和完整:传感器误差,模糊高维:数据未必精确和完整:传感器误差,网络中断网络中断5.5.数据维度高:例如一次体检可以得到数百项生命数据维度高:例如一次体检可以得到数百项生命体征数据体征数据大数据特点大数据特点28大数据与常规

    26、数据的对比常规数据常规数据范围广范围广模态多模态多增长快增长快关联繁关联繁数据规模较小数据规模较小模态属性受限模态属性受限增长速度较慢增长速度较慢关联相对简单关联相对简单稠密与稀疏共稠密与稀疏共存存冗余与缺失并冗余与缺失并在在动态与静态互动态与静态互现现显式与隐藏均显式与隐藏均有有特性特性问题问题描述与存储的挑战描述与存储的挑战分析与理解的挑战分析与理解的挑战挖掘与预测的挑战挖掘与预测的挑战挑战挑战大数据大数据应用目标应用目标相对比较明确相对比较明确数据结构相对比数据结构相对比较简单较简单时序长时序长持续时间较短持续时间较短处理方法通常为处理方法通常为模型化、参数化模型化、参数化 钱学森钱学森

    27、“综合集成综合集成”理论的启示理论的启示一个科学新领域-开放的复杂巨系统及其方法论 钱学森-戴汝为:“综合集成综合集成”(meta-synthesis)科学方法论 “综合集成综合集成”可以解读为从定性到从定性到定量的科学研讨厅定量的科学研讨厅(hall for workshop)“综合集成综合集成”方法论方法论:1+1 2 J.自然杂志,1990大数据时代的软件服务工程大数据时代的软件服务工程拓新拓新“综合集成的迭代整合综合集成的迭代整合”科学方法论科学方法论“综合集成综合集成”可拓展为以可拓展为以科研社交网络的民主形式科研社交网络的民主形式,从定性到定量的科研整合,从定性到定量的科研整合“定

    28、性定性”:是指面向领域或主题、运用专家的定性智慧,建立大数据处理知识的聚类,形成少数几种可能的大数据价值服务的基本解决方案及其本体。面向面向领域或主题的大数据服务的共性需求解决方案领域或主题的大数据服务的共性需求解决方案“定量定量”:细化解决方案本体,对同类或异类方案之间的关联,通过语义互操作构造与管理的关联计算,建立大数据处理的基本知识;随着时间与空间的变化,不断吸收与迭代整合:来自历史大数据历史大数据的知识与基于运行时反射机理的用户网页个性化标用户网页个性化标注的相关内容注的相关内容,动态演化生长演化生长 形成面向领域或主题的大数据服务的富知识形成面向领域或主题的大数据服务的富知识从定性到

    29、定量整合的从定性到定量整合的科学研讨厅科学研讨厅(hall for workshop):支撑领域或主题大数据处理知识的规模化整合及其演化的PaaS(平台作为服务),并接入面向多样价值目标的异域异构大数据服务SaaS(软件作为服务)综合与互操作实现。PaaS+SaaS厚积簿发厚积簿发:面向领域或主题的富知识,实现在线流式大数据分析的可伸缩、可选择可伸缩、可选择的按需价值服务的按需价值服务科学家与鞋匠科学家与鞋匠所见所见略同略同“定性定性”:鞋匠按手工方式做鞋,因各人尺寸各异,觉得鞋子采用个案生产,天经地义;鞋匠按手工方式做鞋,因各人尺寸各异,觉得鞋子采用个案生产,天经地义;但做到第但做到第100

    30、0010000双时,感悟复杂中存在简单,几十种鞋码足以满足大众个性,他不再做双时,感悟复杂中存在简单,几十种鞋码足以满足大众个性,他不再做鞋,开鞋厂去了鞋,开鞋厂去了;“鞋码鞋码”,是一种是一种“聚类聚类”的定性感悟;的定性感悟;“定性定性”到到“定量定量”的整合的整合:不仅是不仅是“鞋码鞋码”,还要考虑与市场竞争的关联、群体与时尚,还要考虑与市场竞争的关联、群体与时尚的技术整合的技术整合,不断的累进创新、可持续发展不断的累进创新、可持续发展科学范式的内涵科学范式的内涵 “范式范式”,是指特定的科学共同体从是指特定的科学共同体从事某一类科学活动所必须事某一类科学活动所必须遵循的公认遵循的公认“

    31、模式模式”,它包括共有的,它包括共有的世界观、基世界观、基本理论、范例、方法、手段、标准本理论、范例、方法、手段、标准等与科学研究有关的所有内容等与科学研究有关的所有内容。科学革命的结构科学革命的结构,库恩库恩,1962 Jim Gray2007年,已故的图灵奖得主吉姆年,已故的图灵奖得主吉姆格雷(格雷(Jim Gray)在他最后一次演讲中描绘了关于数据密集型科研发现在他最后一次演讲中描绘了关于数据密集型科研发现的的“第四范式第四范式(Fourth Paradigm)”愿景。愿景。第四范式第四范式“综合集成的迭代整合综合集成的迭代整合”科学方法论科学方法论以大数据为基础的数据密集型科研以大数据

    32、为基础的数据密集型科研从定性到定量整合的科研厅从定性到定量整合的科研厅(hall for workshop)如何从大数据中分析发现内在科学规律如何从大数据中分析发现内在科学规律?形成面向大数据领域或主题的富知识支撑形成面向大数据领域或主题的富知识支撑如何发挥内在规律的价值如何发挥内在规律的价值?面向领域或主题富知识的按需价值服务面向领域或主题富知识的按需价值服务 只有在领域或主题知识逐步丰富的前提下只有在领域或主题知识逐步丰富的前提下,再过渡再过渡到第三到第三范范式的方法式的方法 将大数据科研从第三范式(计算机模拟)中分离出来单独作为科研 第四范式第四范式,是因为其研究方式不同于基于数学模型的传统研究方式研究方式不同于基于数学模型的传统研究方式 不仅是科研方式的转变不仅是科研方式的转变,也是人们思维方式的大变化也是人们思维方式的大变化 对研究领域的深刻理解和数据量的积累对研究领域的深刻理解和数据量的积累,是一个迭代累进的过程是一个迭代累进的过程 往往是先采用第四范式先采用第四范式,等领域知识逐步丰富了再过渡到第三范式等领域知识逐步丰富了再过渡到第三范式李国杰李国杰,“大数据研究的科学价值”,中国计算机学会通讯,第 8 卷 第 9 期 2012 年 9 月

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据技术导论课件32.ppt
    链接地址:https://www.163wenku.com/p-4091157.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库