大数据及其相关新兴技术-(-)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据及其相关新兴技术-(-)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 及其 相关 新兴 技术 课件
- 资源描述:
-
1、大数据及其相关新兴技术大数据及其相关新兴技术 Big Data and Its Related Emerging Technologies2014年8月陈国良深圳大学计算机与软件学院Version 1:07/2013Version 1:07/2013.Version 8:08/2014Version 8:08/20142摘要摘要:大数据、物联网和云计算是新一代信息技术发展中的华彩乐章。物联网使成千上万的网络传感器嵌入到现实世界中,云计算为物联网产生的海量数据提供了存储空间和在线处理,而大数据则让海量数据产生了价值。本报告,首先介绍大数据世界和大数据潮流;其次讲解什么是大数据和大数据的一般处理流
2、程;接着介绍产生大数据来源之一的物联网的产生、发展及其系统架构;然后讲述大数据与云计算的关系和两者的异同点;最后在简介高性能计算与高性能计算机的基础上,阐述了在大数据面前高性能计算本身所面临的技术挑战等。3目 录5.大数据浪潮汹涌澎湃1.1 大数据世界1.2 大数据潮流1.3 什么是大数据1.4 变革思维研究大数据1.5 大数据的价值1.6 大数据的管理1.7 大数据时代的产业界情况6.大数据引领社会、经济和科技发展2.1 大数据对国家社会的作用2.2 大数据推动国民经济发展2.3 大数据促进科技发展2.4 大数据应用及实例7.大数据的处理流程3.1 大数据的采集与预处理3.2 大数据的传输3
3、.3 大数据的存储3.4 大数据的处理3.5 大数据的展现8.大数据与物联网4.1 物联网4.2 物联网的发展历程4.3 大数据与物联网9.大数据与云计算5.1 什么是云计算5.2 大数据与云计算的关系5.3 大数据与云计算的不同点10.高性能计算与高性能计算机6.1 什么是高性能计算6.2 高性能计算机系统举例6.3 高性能计算应用11.高性能计算面临大数据的挑战7.1 计算模型的转变7.2 系统结构的转变7.3 编程模型的转变7.4 应用方式的转变7.5 其他方面的转变12.结论8.1 从量变到质变8.2 各领风骚十数年41、大数据浪潮汹涌澎湃1.1 大数据世界网络连接的世界涌现出大数据网
4、络连接的世界涌现出大数据互联网和社交网产生的数据:互联网和社交网产生的数据:现代网络社会中,人们在通过电子邮件、维基、微博、博客、娱乐节目、网上购物、银行交易、股票数据等进行互动和交易,每个人在分享网上数据的同时,又在不断制造数据。无线移动互联网络产生的数据:无线移动互联网络产生的数据:移动智能终端接入互联网就形成了移动互联网,它虽兼具了通信网之“随时、随地、随身”和互联网之“共享、开放、交互”的优势,但仍面临着海量数据通信对网络带宽带来的巨大负担;而移动互联网的无线接入网络使得数据流量剧增,迫使网络运营商不断增加基站数和进一步挖掘频谱利用率;网络应用和服务的多元化使得传统的微观小尺度(分组级
5、和数据帧级)的业务规律分析无法从宏观上描述业务特征规律。物联网上采集和观测数据:物联网上采集和观测数据:在遍布全球各地的移动传感器、无线传感器、空间遥感器、射频识读器和摄像、照相机等各种采集和观测数据设备,都在时时、处处捕获大量诸如位置数据、传感数据、卫星图像数据、气象数据等。(1)(1)社会发布的信息数据:社会发布的信息数据:现代社会中,政府、企事业、行业等机关部门都不断地向社会发布政务信息、公共服务信息、卫生保健信息、社会保险信息、科技教育信息、安全预警信息、金融服务信息、证据投资信息等数据。51、大数据浪潮汹涌澎湃 大科学工程产生了大数据大科学工程产生了大数据*大型强子碰撞大型强子碰撞(
6、LHC:Large Hadron Collider)试验试验:美国大数据研究计划中专门列出寻找希格斯希格斯粒子(被称为“上帝粒子”)的LHC实验。据说至少要1 1万亿个万亿个事例中才可能找出一个希格斯粒子。在发生碰撞时,LHC检测器(Detector)在一秒钟内能捕获到其临近0.4亿(40 million)个快照。当LHC试验时,约有1.5亿个传感器(Sensor)每秒传递数据0.4亿次,大约每秒近6.0亿碰撞。如果所有的传感器数据均记录在LHC中,则在重复之前每天将近有500EB(E=1018)数据流量,几乎是世界上所有其他资源的200倍。*希格斯粒子以2013年诺贝尔奖获主之一现年84岁的
7、英国科学家彼得希格斯命名。他在1964年曾预言玻色子粒子的存在。时隔50年之后,被总部设在瑞士日内瓦的欧洲核子研究中心LHC实验项目所证实。因为诺贝尔奖至多3人分享,所以欧洲核子研究中心参与发现这种粒子的数以千计的研究人员就成了无名英雄了。*参与“上帝粒子”项目的28岁小伙子,计昊爽,合肥庐江人,毕业于中国科学技术大学,后去美国威斯康辛大学读博士。他是欧洲核子研究组织(CERN)团队成员,他在计算和实验证明出“上帝粒子”存在功不可没。他首次计算得到了5倍西格玛(Sigma)的显著度,有99.9999%的可信度表明了该粒子的存在。这在科学界被认为已经证明了上帝粒子的存在。斯隆数字天空勘探斯隆数字
8、天空勘探(SDSS:Sloan Digital Sky Survey)计划计划:从2008年开始收集天文数据,并且每晚以200GB的速率继续收集,到2012年,SDSS已积累了超过140TB的信息。基因测序基因测序:2013年全球至少有30万个人类个体基因组被全部或部分测序,这就意味着将会产生30Pb的序列数据,至少需要相当150PB的存储和分析计算能力。61、大数据浪潮汹涌澎湃新技术新应用催生的大数据新技术新应用催生的大数据新技术新技术:传感技术、新型通信技术、物联网技术等高速发展,让人们感知的东西很多;人与人、人与机器、机器与机器时刻都在互联互动;新的获取、搜索、发现和分析工具更使人们获得
9、更丰富的数据。新应用新应用:物联网(使成千上万的网络传感器嵌入到现实世界中)和云计算(为海量数据提供了存储空间和在线处理)等新型应用更使得数据激增。大数据发展的主要推动力大数据发展的主要推动力大数据推动者是企业界企业界:企业界的经济效益推动了大数据的发展。IBM、Oracle、微软、谷歌、亚马逊、Facebook等跨国巨头是大数据处理技术的主要推动者。OReilly公司断言:数据是下一个“Intel Inside”,未来属于将数据转换成产品的公司和人们。大数据主要消费者是网民网民:近年来大数据骤增主要还是来自人们的日常生活(图片、视频、音乐等),特别是互联网公司的服务。传感网和物联网传感网和物
10、联网等相关技术催生了大数据的蓬勃发展。71、大数据浪潮汹涌澎湃1.2 大数据潮流大数据时代大数据时代大数据的价值大数据的价值 21世纪数据的价值有可能等同于20世纪的石油石油,但石油资源会不断耗尽,而数据会随应用不断增长,呈“无限增长”的趋势。信息经济早期,数据只作为一种“资源资源”;后来人们逐渐把它视为一种“资产资产”;而现今数据却成了一种“能力能力”,是企业的核心竞争力。大数据成了国际业界热门话题大数据成了国际业界热门话题 21世纪是个数据为王的时代,每个人都必须“用数据说话”,谁拥有了数据,谁就有了话语权。(1)大数据是继云计算、物联网之后的IT界又一次颠覆性技术变革。2012年世界经济
11、论坛发布了“Big Data,Big Impact”的报告,阐述了大数据对农业、金融、医疗、健康、教育等发展带来了新机遇。81、大数据浪潮汹涌澎湃 大数据研究计划大数据研究计划美国美国“大数据研发创新大数据研发创新”计划计划 计划概况计划概况:2012年3月,美国Obama政府宣布了“Big Data Research and Development Initiative”计划,探讨如何利用大数据分析来应对政府所面临的一些重大问题。该计划由跨6个部门的84个大数据项目组成,总投资共$200million(2亿美元)。计划目的计划目的:通过抽取知识和洞察大而复杂的数据,改进工作能力;通过创新,加
12、速科学和工程发现的步伐;增强国家安全和改观国民教育现状与面貌等。计划落实实施计划落实实施:除了投放2亿美元资金外,政府希望工业界、大学、非盈利企事业单位加入联邦政府,利用大数据所提供的机遇。总统号召:“all hands on deck”(各就各位,全体出场),共同努力。在此形势下,美国有些公司已为大学提供大数据方面的研究项目与资金;大学已开设大数据的课程,为培养下一代“数据科学家”做准备等。日本日本“新新ICTICT战略研究战略研究”计划计划 计划发起计划发起:2012年7月日本推出“新ICT战略研究计划”,在新一轮IT振兴计划中日本政府把大数据发展作为国家层面战略提出。这是日本新启动的20
13、11年大地震一度搁置的政府ICT战略研究。计划关注点计划关注点:所推出的新的综合战略“活力ICT日本”,“提升日本竞争力,大数据应用不可缺少”,重点在大数据的应用所需的云计算、传感器、社会化媒体等智能技术开发,大数据将为新医疗技术开发、交通拥堵的缓解等带来方便和贡献。91、大数据浪潮汹涌澎湃英国英国“聚焦大数据和节能计算聚焦大数据和节能计算”计划计划 做好准备做好准备:英国认为自己为大数据革命做好了准备,英国把大数据看作是自己的优势,政府加大对大数据等IT技术的投入,并带动企业对该领域的投资。资金投入资金投入:英国政府宣称投资6亿英镑科学资金,并计划在未来两年内在大数据和节能计算研究投资1.8
14、9亿英镑。政府把大量的资金投入到计算基础设施,用以捕捉并分析通过开放式数据革命获得的数据流,带动企业投入更多的资金。我国大数据论坛我国大数据论坛及研究计划及研究计划 在在20132013年:年:中国计算机学会率先于2013年成立“大数据专业委员会”,李国杰院士任主任。在在2011201420112014年:年:2013年3月国家自然基金委在上海举行规模浩大的“大数据双清论坛”。中国分别举办了第一届(2011年)和第二届(2012年)“大数据世界论坛”。IT时代周刊等举办了“大数据2012论坛”,中国计算机学会举办了“CNCC2012大数据论坛”。国家自然科学基金委,2014年立项重点和重大项目
15、“大数据技术和应用中的挑战性科学问题”研究,拟从10个方向中选择资助8个重点项目。国家科技部,863计划信息技术领域2015年备选项目包括超级计算机、大数据、云计算、信息安全、第五代移动通信系统(5G)等。101、大数据浪潮汹涌澎湃 GartnerGartner预测大数据的发展周期预测大数据的发展周期2011年:大数据进入技术导入期导入期(Trigger),呈上升发展趋势;同时大数据预测分析等相关技术已较为成熟,而云计算、内存数据库管理和社会分析等也处于期望膨胀期期望膨胀期(Inflated Expectation)。2012年:大数据已进入井喷期井喷期(Inflated),处于接近高峰期,同
16、时大数据相关预测分析、云计算、内存数据库管理、社会分析等技术已逐步发展且趋于成熟。导入导入 上胀上胀 低落低落 回升回升 稳定稳定111、大数据浪潮汹涌澎湃2013年:大数据带动了数据科学的研究热潮和相关使能技术的兴起。121、大数据浪潮汹涌澎湃1.3 什么是大数据认识大数据认识大数据大数据一般来源于网络用户、网络应用、智能终端、政府、企业和个人,所以大数据包含了互动数据互动数据、交易数据交易数据和观测数据观测数据等。所谓大数据(Big Data)就是指用目前常用的软件工具无法在容许的时间(可接受的时间)内进行获取、存储、管理和分析等的数据集(Data sets)。数据之所以称为大数据,首先是
17、因为其量大(Large Quantity),而量大对不同的领域的界定也不同;目前,大数据一般典型范围为几十TB(T=1012)到PB(PB=1015),将来会更大。大数据的大数据的4V4V定义定义大数据可按其大容量大容量、快速率快速率、多样性多样性和高价值高价值等4个“V”进行定义如下:Volume(Amount of Data):大容量大容量(主要体现数据存储量大和计算量大)Velocity(Speed of Data in&out):快速率快速率(主要指数据更新、增长速度快,数据存储、传输、处理速度快)Variety(Range of Data Types&Sources):多样性多样性(
18、包括结构化的原数据库表格数据和半结构化、非结构化的文本、视频、图像等信息)(1)Value(Usefulness of Data):高价值高价值(大海捞针,“在大数据困难面前,不被利用就是成本”)131、大数据浪潮汹涌澎湃处理大数据的基本原理处理大数据的基本原理数据量的巨大(本身也包含着数据大小变化范围大)使得数据无法集中存储和必须使用并行与分布计算技术并行与分布计算技术。数据的快速,使得数据到达速率快和输出结果快,这就需要实时处理实时处理和快速决策。数据的多样性,数据结构化、非结构化、半结构化甚至不可预知的结构使得数据难以统一表达、处理系统极其复杂处理系统极其复杂。大数据的价值弥足珍贵弥足珍
19、贵,但大数据的价值密度低价值密度低,在浩瀚的大数据海洋中,如何挖掘有用的东西,似如“大海捞针”!利用好大数据的价值并非易事!大数据的研究大体上包含数据获取获取、存储存储、传输传输、分析分析、管理管理与应用应用等诸多方面,显然涉及到物理、材料、电子、计算机、通信、数学、统计、信息管理以及各应用行业,不是单一学科能解决的问题,需要多学科交叉综合研究多学科交叉综合研究!大数据的大数据的4 4层技术架构层技术架构基础层基础层:横向可扩展存储和计算平台;虚拟化、网络化的分布式架构。管理层管理层:并行、分布式管理平台;结构化和非结构化的统一管理。分析层分析层:基于统计学的数据挖掘和机器学习算法;分析和解释
20、数据,提供自动服务。应用层应用层:提供实时决策;内置预测能力。141、大数据浪潮汹涌澎湃大数据所带来的技术挑战大数据所带来的技术挑战大数据存储与管理大数据存储与管理:虽然大数据价值稀疏,但保留它还是非常有价值的!解决大数据的存储问题首先是对其进行去重去重和压缩压缩;其次是降低副本比,提高存储效率和降低存储成本。传统传统ITIT系统到大数据系统的过渡系统到大数据系统的过渡:在现有的数据软/硬件平台基础上做渐进式渐进式改进;大数据分析要平民化平民化;大数据应用要直观、易用和网络化。大数据分析大数据分析:需要革命性理论和新算法;不能抽样分析,要全数据聚合分析;以计算为中心转移到以数据为中心;系统架构
21、应分布式和并行化兼顾;将结构化数据的分析方法、工具与新兴的非结构化数据方法、工具相结合;提供数据实时分析能力;云计算是提高大数据分析能力的一种可行方案等。大数据安全大数据安全:发展信息安全技术;加强技术保护;提高全民信息安全意识;完善信息安全政策和流程;完备信息安全标准等。大数据的兴起催生了数据科学大数据的兴起催生了数据科学:数据科学可简单理解为预测分析预测分析和数据挖掘数据挖掘,是统计分析和机器学习技术的结合,相关方法包括回归分析、关联规则、优化技术和仿真建模。大数据所带来的威胁大数据所带来的威胁无处不在的“第三只眼”和大数据的二次利用会使人们惶恐不安,威胁公众的隐私威胁公众的隐私,伤害人类
22、的自由和尊严伤害人类的自由和尊严。运用大数据预测来判断和惩罚人类潜在行为,会给社会和人类带来不公和无法弥补给社会和人类带来不公和无法弥补的损伤的损伤。数据的质量不高、数据的不客观性、数据分析中的差错等所导致的人们对数据的执迷和崇拜,形成了数据独裁是可怕的数据独裁是可怕的,应引以为戒!151、大数据浪潮汹涌澎湃1.4 变革思维研究大数据数据的获取数据的获取不能依靠随机采样采样进行分析,采样无法揭示细节信息,不能期望像小数据时代那样,可用最少的数据获得最多的信息。大数据时代要利用尽可能多的全样全样数据,收集与某事物相关的所有的数据。数据的分析数据的分析在大数据时代,分析如此之多的数据,不能热衷于追
23、求精确性精确性,也无法实现精确性。须知,大数据的简单算法简单算法比小数据的精确复杂算法会更有效。数据的解释数据的解释大数据时代,无需紧紧盯着事物之间为什么的因果关系因果关系,要侧重寻找事物之间是什么的相关关系相关关系。知道“是什么是什么”是大数据从业人员急需的,知道“为什么为什么”可容后让科学家们去分析。数据的处理数据的处理面对数据纷繁杂乱的局面,要接受处理大数据无理论、无模型无模型的理念与现实。不能避免数据纷繁多样、优劣共存的混杂性,要容忍模糊性模糊性和不精确性的处理方法。(1)不建立新模型,没有统一的理论理论和机械式的证明证明,科学也可以照样进步。161、大数据浪潮汹涌澎湃1.5 大数据的
24、价值数据的用途数据的用途数据的基本用途基本用途:数据的分析、处理和使用提供定量可信的科学依据。数据不限于特定用途:数据可以为同一目的而多次重复使用重复使用,它也可以用于不同目的。数据的潜在价值数据的潜在价值数据的再利用再利用:对收集、处理和使用过的数据,存储下来备以后再利用。数据的重组重组:对数据而言,将多个数据集进行重组总和的价值比单个总和的价值更大。数据的可扩展可扩展:将相同数据集设计成可扩展的各种潜在的二次用途。数据的折旧折旧:所收集的数据,做尽可能多的和尽可能长的时间保存,以便再次用于相同或类似的用途。数据的开放开放:特别是“开放政府数据”,供全民使用,更广泛地服务于社会。大数据的商业
25、价值大数据的商业价值大数据掌控公司的发展大数据掌控公司的发展:掌握大数据,多渠道获取拥有大数据,巧妙地挖掘大数据的价值,使数据能优化生产和服务,甚至催生新的行业,便会使公司大放异彩。(1)(1)大数据决定企业的竞争力大数据决定企业的竞争力:大数据是企业的双刃剑因大数据诞生了很多公司,也倒闭破产了很多公司。在激烈的竞争中,所有行业均存在着威胁、挑战、转型与机遇!171、大数据浪潮汹涌澎湃1.6 大数据的管理隐私保护隐私保护对大数据的使用进行正规评测和正确引导,将隐私保护的责任从民众民众转移到数据使用者使用者,让他(她)们对自己的行为负责。设立数据隐私保护模式,将数据的使用权从收集数据进行“个人许
展开阅读全文