大数据技术导论课件32.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据技术导论课件32.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 导论 课件 32
- 资源描述:
-
1、大数据技术大数据技术 导论导论123什么是大数据什么是大数据 定义定义1 1:大数据是指无法在一定时间内用常大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)和处理的数据集合(维基百科定义)Big data usually includes data sets with Big data usually includes data sets with sizes beyond the ability of commonly-used sizes beyond the ability of commonly-used s
2、oftware tools to capture,curate,manage,software tools to capture,curate,manage,and process the data within a tolerable and process the data within a tolerable elapsed time.-Wikielapsed time.-Wiki4什么是大数据什么是大数据定义定义2 2:3V3V Big Data are Big Data are high-volume,high-high-volume,high-velocity,and/or hig
3、h-variety velocity,and/or high-variety information assets that require information assets that require new new forms forms of processing to enable enhanced of processing to enable enhanced decision making,insight discovery and decision making,insight discovery and process optimization-process optimi
4、zation-GartnerGartner VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天5q大数据及其大数据及其4V4V特征特征海量数据规模(海量数据规模(volume):):TBTB级级 PB PB级级快速处理(快速处理(velocity):):快速数据流转和动态数据体系快速数据流转和动态数据体系多样数据类型(多样数据类型(variety):):数据类型繁杂数据类型繁杂巨大数据价
5、值(巨大数据价值(value):):价值稀疏、多样、不确定价值稀疏、多样、不确定q值得关注的大数据的若干研究方向值得关注的大数据的若干研究方向分布式数据存储与管理:分布式数据存储与管理:对大数据进行存储与管理对大数据进行存储与管理数据挖掘与商务智能:数据挖掘与商务智能:对大数据规律进行挖掘与发现对大数据规律进行挖掘与发现物联网与物联网与CPSCPS:产生与形成大数据产生与形成大数据云计算及服务平台:云计算及服务平台:存储和处理大数据及其业务存储和处理大数据及其业务关注点:关注点:海量数据处理海量数据处理 =分布式存储与管理分布式存储与管理 =云计算云计算 =数据挖掘与分析数据挖掘与分析 =海量
6、业务处理海量业务处理 =大服务大服务7什么是大数据什么是大数据定义定义3:3:当数据的当数据的规模和性能要求规模和性能要求成为数据管理分析系成为数据管理分析系统的统的重要设计和决定因素重要设计和决定因素时,这样的数据就被称为时,这样的数据就被称为大数据大数据 不是简单地以数据规模来界定大数据,要考虑数据查不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度询与分析的复杂程度以目前计算机硬件的发展水平看以目前计算机硬件的发展水平看 针对针对简单查询简单查询(如关键字搜索),数据量为(如关键字搜索),数据量为TBTB至至PBPB级级时可称为大数据时可称为大数据 针对针对复杂查询复杂查询
7、(如数据挖掘),数据量为(如数据挖掘),数据量为GBGB至至TBTB级级时时即可称为大数据即可称为大数据8什么是大数据什么是大数据 定义定义4:4:大数据有两个基本特征不同于传统的数据大数据有两个基本特征不同于传统的数据集:集:1.1.大数据不一定存储于固定的数据库,而大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间是分布在不同地方的网络空间 2.2.大数据以半结构化或非结构化数据为主,大数据以半结构化或非结构化数据为主,具有较高的复杂性。具有较高的复杂性。9克强指数(Li keqiang index):耗电量铁路货运量银行贷款发放量英国著名政经杂志经济学人认为:克强指数比官方GD
8、P数字更能反映中国经济的现实状况。花旗银行在编制时将各自权重分别设定为40%、25%和35%。12大数据涉及诸多不同的领域大数据涉及诸多不同的领域用户生成数据Deep Web数据多模态内容数据天文气象基因医学经济物理其他领域网络与关系数据13大数据的价值大数据的价值科研价值科研价值1998 年图灵奖得主、数据库技术奠基人Jim Gray认为数据驱动的研究将是第四种科学研究范式”The Fourth Paradigm:Data-Intensive Scientific Discovery”大数据已为多个不同学科的研究工作提供了宝贵机遇经济价值经济价值麦肯锡全球研究院:大数据可为世界经济创造巨大价
9、值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%工业价值工业价值分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解二次开发:创造出新产品和服务。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式社会价值社会价值例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态其他价值其他价值Data is the next Intel Inside.The future
10、belongs to the companies and people that turn data into products.-著名出版公司著名出版公司OReilly的创始人的创始人Tim OReilly深网深网挖掘挖掘深空深空探索探索20122012年我国神州年我国神州九号进入太空九号进入太空深海深海探测探测20122012年我国蛟龙号年我国蛟龙号探测水下探测水下70007000米米实现大数据价值的实现大数据价值的深度挖据和高度利用深度挖据和高度利用!大数据的深度资源挖掘与价值利用是国家战略大数据的深度资源挖掘与价值利用是国家战略 从从 深空深空 +深海深海 深网深网1415感知现在感知
11、现在:历史数据与当前:历史数据与当前数据的融合数据的融合,潜在线索与潜在线索与模式的挖掘模式的挖掘,事件、群体与社会发展事件、群体与社会发展状态的感知状态的感知中国发展指数(物价、环境、健康)中国发展指数(物价、环境、健康)需求:需求:掌握现状,如淘宝掌握现状,如淘宝CPICPI、环境指数、环境指数难点:难点:PBPB级社会媒体数据,百亿级日志数据,级社会媒体数据,百亿级日志数据,结构与非结构数据关联,结构与非结构数据关联,历史与流式数据并存历史与流式数据并存犯罪线索挖掘犯罪线索挖掘需求:需求:发现线索发现线索,如罪犯行为轨迹如罪犯行为轨迹难点:难点:PBPB级日志数据、级日志数据、EBEB级
12、监控数据中级监控数据中发现嫌疑人及其行为模式犹如发现嫌疑人及其行为模式犹如大海捞针大海捞针问题与挑战:问题与挑战:数据数据规模巨大、模态规模巨大、模态多样多样、关联复杂关联复杂、真伪难真伪难辨辨 现有数据处理方法现有数据处理方法感知度量难、特征融合难感知度量难、特征融合难、模式挖掘难模式挖掘难15联合国联合国“全球脉动全球脉动”(Global Pulse):(Global Pulse):利用网络大数据预测失业率与疾病爆发利用网络大数据预测失业率与疾病爆发等现等现象,利用数字化的早期预警信号来提前指导象,利用数字化的早期预警信号来提前指导援助项目。援助项目。问题与挑战:问题与挑战:数据数据交互性
13、强、实时性强交互性强、实时性强、动态演变、动态演变,导致传统数据,导致传统数据计算方法:计算方法:数据生命周期的割裂、时效性数据生命周期的割裂、时效性与准确与准确性难以兼顾、演变趋势难以预测性难以兼顾、演变趋势难以预测基于基于Twitter Twitter 数据的选举结果预测数据的选举结果预测:通过对通过对TwitterTwitter等网上公开数据的实时感知、动等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选态获取与综合分析,结合仿真调控,预测大选结果。结果。预测未来:预测未来:全量数据、流式数据、离线数据全量数据、流式数据、离线数据的关联分析,的关联分析,态势与效应态势与
14、效应的判定与调控的判定与调控,揭示事物发展的,揭示事物发展的演变规律演变规律,进而,进而对事物发展趋势进行预测对事物发展趋势进行预测1617美国的大数据规划美国的大数据规划-大数据上升为国家意志大数据上升为国家意志 2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“Big Data Research and Development Initiative”促进采集、存储、维护、管理、分析和共享海量数据的核心技术;利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术的人力资源。Core Technologies for Advancing Bi
15、g Data Science&EngineeringData to Decisions1000 Genomes Project Data Available on CloudScientific Discovery Through Advanced ComputingBig Data for Earth System ScienceXDATA18欧盟的大数据规划欧盟的大数据规划-基础设施是先导基础设施是先导Horizon 2020-The Framework Programme for Research and Innovation面向大数据的数据信息化基础设施(E-Infrastructur
16、e)是优先资助领域GRDI 2020-Global Research Data Infrastructures建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合FP7 Call 8 Intelligent Information Management -Big Data预算5千万欧元,2012-1-17截止目标:提升发现、分析、开采、使用大数据及其基础设施的能力 通过对大数据收集与分析创造更大价值 探索基于大规模互联数据资源与专用基础设施的新型科学研究 面向大数据的人力资源开发19学术界对大数据的关注n20122012年年1 1月,月,Natu
展开阅读全文