《现代通信系统新技术》课件第8章大数据和云计算技术.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《现代通信系统新技术》课件第8章大数据和云计算技术.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代通信系统新技术 现代通信系统新技术课件第8章 大数据和云计算技术 现代 通信 系统 新技术 课件 数据 计算 技术
- 资源描述:
-
1、第第8章章 大大数据数据和云计算技术简介和云计算技术简介8.1 大数据的大数据的概念概念8.2 云计算的基本概念云计算的基本概念8.3 大数据和云计算融合大数据和云计算融合的必然趋势的必然趋势8.1 大数据大数据的的概念概念 大数据(big data)是指所涉及的资料量规模巨大,无法在规定时间内通过常规软件工具对其内容进行撷取、管理和处理的数据集合。大数据需要满足“4V”特征,即数据量大数据量大(Volume)、数据的种类多数据的种类多(Variety)、数据的增长及处理速度数据的增长及处理速度快快(Velocity)、数据蕴藏价值大数据蕴藏价值大(Value)这4个根本特征,才能称之为大数据
2、。数据量大数据量大(Volume)数据的采集、存储和计算的量都非常大,大数据通常指10 TB以上规模的数据量。造成数据量增大的原因有很多,例如,监控和传感设备的使用,使我们感知到更多的事务,这些事务的数据将被部分或者完全存储;(移动)通信设备的使用,使得交流的数据量成倍增长;基于互联网和社会化网络的应用的发展,数以亿计的用户每天产生大量的数据。大数据是不断增长的,没有限定的,今天的数据可能比昨天大,明天的数据可能比今天大。尽管太字节(TB,1012 B)、拍字节(PB,1015 B)、艾字节(EB,1018 B)、泽字节(ZB,1021 B)、尧字节(YB,1024 B)级的数据很大,但仍不是
3、大数据。其实,大量是客观存在的,只不过以前我们无法将其充分利用。数据种类多数据种类多(Variety)数据的种类和来源较多,例如多种传感器、智能设备、社交网络等。数据的种类包括结构化、半结构化和非结构化数据,包括图片、音频、视频、地理位置等多类型的数据。数据种类多实际上就是具有多个时段(历史的、现在的)、多种媒体、多个来源、异构(结构化、半结构化、非结构化)的数据。数据的增长及处理速度快数据的增长及处理速度快(Velocity)数据每分每秒都在爆炸性地增长,而对数据的处理速度要求也很高,数据的快速动态的变化使得流式数据成为大数据的重要特征,对大数据的处理要求具有较强的时效性,能够实时地查询、分
4、析、推荐等。数据蕴藏价值大数据蕴藏价值大(Value)在海量的数据中,存在着巨大的被挖掘的商业价值,然而由于数据总量的不断增加,数据的单位价值密度却相对较低,如何通过强大的数据挖掘算法,结合企业的业务逻辑来从海量数据中获取有用的价值是大数据要解决的重要问题。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键就在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。除了上述的4个主要特征外,大数据与传统的数据处理技术最明显的一个区别是,大数据要求在线处理。例如,用户在使用某一网站或应用时,需要
5、及时地把用户行为数据传送给企业,通过相应的数据处理或数据挖掘算法,分析出用户的行为特征,并根据处理结果对用户进行精准的内容推荐或行为预测,在提升用户体验的同时,增加用户黏度,为企业带来更多的商业价值。而离线的数据处理,则不能满足这一需求,在线实时处理也是大数据发展的重要趋势和特点。大数据的总体架构包括三层,即数据存储,数据处理和数据分析。类型复杂和海量由数据存储层解决,快速和时效性要求由数据处理层解决,价值由数据分析层解决。(1)数据存储层数据存储层。数据有很多分法,有结构化、半结构化、非结构化,也有元数据、主数据、业务数据,还可以分为GIS、视频、文件、语音、业务交易类各种数据。传统的结构化
6、数据库已经无法满足数据多样性的存储要求,因此在RDBMS基础上增加了两种类型,一种是hdfs,可以直接应用于非结构化文件存储;一种是NoSQL类数据库,可以应用于结构化和半结构化数据存储。从存储层的搭建来说,关系型数据库,NoSQL数据库和hdfs分布式文件系统三种存储方式都需要。业务应用根据实际的情况选择不同的存储模式,但是为了业务的存储和读取方便性,我们可以对存储层进一步封装,形成一个统一的共享存储服务层,简化这种操作。用户并不关心底层存储细节,只关心数据的存储和读取的方便性,通过共享数据存储层可以实现在存储上的应用和存储基础设置的彻底解耦。(2)数据处理层数据处理层。数据处理层解决的核心
7、问题在于出现分布式后存储方式带来的数据处理上的复杂度,海量数据存储带来了数据处理上的时效性要求。在传统的云相关技术架构上,可以将hive、pig和hadoop-mapreduce框架相关的技术内容全部划入到数据处理层的能力。mapreduce只是实现了一个分布式计算的框架和逻辑,而真正的分析需求的拆分、分析结果的汇总和合并还是需要hive层的能力整合。最终的目的很简单,即支持分布式架构下的时效性要求。(3)数据分析层数据分析层。数据分析层的重点是挖掘大数据的真正价值所在,而价值的挖掘核心又在于数据分析和挖掘。那么数据分析层的核心仍然在于传统的BI分析的内容,包括数据的维度分析、数据的切片、数据
8、的上钻和下钻、cube等。数据分析只关注两个内容,首先是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;其次是根据业务目标和业务需求建立的KPI指标体系,对应指标体系的分析模型和分析方法,解决了这两个问题就基本解决了数据分析的问题。传统的BI分析通过抽取和集中化大量的ETL数据,形成一个完整的数据仓库,而基于大数据的BI分析,可能并没有一个集中化的数据仓库,或者数据仓库本身也是分布式的,BI分析的基本方法和思路并没有变化,但是数据存储和数据处理方法却发生了大变化。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,
9、必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。大数据最核心的价值就是在于对海量数据进行存储和分析。相比现有的其他技术而言,大数据具有廉价廉价、迅速迅速、优优化化三大特点。8.1.1 大数据处理分析的六大工具大数据处理分析的六大工具 大数据分析就是在研究和分析大量的数据过程中,寻找模式相关性和其他有用的信息,帮助企业更好地适应变化,并做出更明智的决策。1.Hadoop Hadoop是一个能够对
10、大量数据进行分布式处理的软件框架。它是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本;Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度;Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点优点:高可靠性高可靠性Hadoop按位存储和处理数据的能力值得人们信赖按位存储和处理数据的能力值得人们
11、信赖。高扩展性Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。容错性Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop带有用Java语言编写的框架,因此非常适于运行在Linux生产平台上。Hadoop上的应用程序也可以使用其他语言编写,比如C+。2.HPCC 高性能计算与通信(High Performance Computing and Communications,HPCC)是1993年由美国科学、工程、技术联
12、邦协调理事会向国会提交的“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而实施的计划,该计划的实施将耗资百亿美元,其主要目标是:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。该项目主要由五部分组成:(1)高性能计算机系统高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;(2)先进软件技术与算法先进软件技术与算法(ASTA),内容
13、包括巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算及高性能计算研究中心等;(3)国家科研与教育网络国家科研与教育网络(NREN),内容包括中接站及10亿位级传输的研究与开发;(4)基本研究与人类资源基本研究与人类资源(BRHR),内容包括基础研究、培训和课程教材,通过长期的调查,在可升级的高性能计算中来增加被调查人员的创新意识流,通过高性能的计算训练和通信,增加人员之间的联络,以此来支持调查和研究活动;(5)信息基础结构技术和应用信息基础结构技术和应用(IITA),目的在于保证美国在先进信息技术开发方面的领先地位。3.Storm Storm是自由的开源软件,一个分布式的、容错的实时计
14、算系统,用于处理Hadoop的批量数据且非常可靠。Storm很简单,支持许多种编程语言,使用起来非常有趣,且易于配置及使用。Storm由Twitter开源而来,其他知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远程调用协议,一种通过网络从远程计算机程序上请求服务)、ETL(Extraction-Transformation-Loading,即数据抽取、转换和加载)等等。Storm的处理速度惊人,经测试,每个节点每秒钟可以处理100万个数据元组。4.Apache Drill 为
15、了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。Apache Drill实现了Googles Dremel。据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,Drill已经作为Apache孵化器的项目来运作,将面向全球软件工程师持续推广。该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而Drill将有助于Hadoop用户更快地查询海量数据集。Drill项目其实也是从谷歌的Dremel项目中获得的灵感:该项目
16、帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。通过开发Drill Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。5.Rapid Miner Rapid Miner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它的数据挖掘任务涉及广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。Rapid Miner的功能和特点有:免费提供数据挖掘技术和库;100%用Java代码(
17、可运行在操作系统上)编写;数据挖掘过程简单,强大且直观;内部XML保证了以标准化的格式来表示交换数据挖掘过程;可以用简单脚本语言自动执行大规模进程;具有多层次的数据视图,确保了有效和透明的数据;具有图形用户界面的互动原型;命令行(批处理模式)自动大规模应用;具有Java API(应用编程接口);拥有简单的插件和推广机制;具有强大的可视化引擎,许多尖端的高维数据的可视化建模;400多个数据挖掘运营商支持。耶鲁大学已成功地在许多不同的应用领域使用Rapid Miner,包括文本挖掘、多媒体挖掘、功能设计、数据流挖掘、集成开发的方法和分布式数据挖掘。6.Pentaho BI Pentaho BI 平
18、台不同于传统的BI产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等组件集成起来,方便商务智能应用的开发。它的出现使得一系列面向商务智能的独立产品(如Jfree、Quartz等等)能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。Pentaho Open BI套件的核心架构和基础,是以流程为中心的,因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI平台上执行的商业智能流程。流程可以很容易地被定义,也可以添加新的流程。BI平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素
19、包括报表生成、分析、数据挖掘和工作流管理等。这些组件通过J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。Pentaho主要以Pentaho SDK的形式发行。Pentaho SDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为Pentaho平台的正常运行提供数据服务,包括配置信息、
20、Solution相关的信息等,对于Pentaho平台来说,它不是必需的,通过配置是可以用其他数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。Pentaho BI平台构建于服务器、引擎和组件的基础之上,包括J2EE服务器、安全与权限控制、portal、工作流、规则引擎、图表、协作、内容管理、数据集成、多维分析和系统建模功能。这些组件的大部分是基于标准的,可使用其他产品替换。8
21、.1.2 大数据在我国的未来之路大数据在我国的未来之路1.大数据的基本特点大数据的基本特点 (1)数据体量巨大数据体量巨大。从TB级别,跃升到PB级别。(2)数据类型繁多数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。(3)价值密度低价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。(4)处理速度快处理速度快。1秒定律。最后这一点也和传统的数据挖掘技术有着本质的不同。2.我国大数据的变革之路我国大数据的变革之路 国务院发布的促进大数据发展行动纲要(以下简称“纲要”)将大数据发展确立为国家战略。党的十八届五中全会明确提出,实施“互联网+”行动计划,发展
22、分享经济,实施国家大数据战略。大力发展工业大数据和新兴产业大数据,利用大数据推动信息化和工业化深度融合,从而推动制造业网络化和智能化,正成为工业领域的发展热点。明确工业是大数据的主体,工业大数据的价值正是在于其为产业链提供了有价值的服务,提升了工业生产的附加值。工业大数据的最终作用是为工业的发展、为工业企业的转型升级提供有价值的服务。要顺利实现中国制造2025的目标,中国工业企业必须做好两件事:“顶天”掌握高端装备行业的工业数据,在高端制造领域完全实现中国智造;“立地”掌握中国制造行业的工业大数据,通过运用工业大数据,提升中国制造企业的效益,实现节能降耗,进一步提升中国制造产品质量。为了确保“
23、顶天立地”目标的实现,必须狠抓人才、知识、工具三方面工作。目前,美国在信息物理系统方面尚缺乏大约19万名工程师,而中国的人才缺口更大;此外,大数据知识开放和工具升级也很迫切。8.2 云云计算的基本概念计算的基本概念 云计算(Cloud Computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网那个的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以
24、按需、易扩展的方式获得所需服务,这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。可以概括地说:“云计算是通过网络提供可伸缩的廉价的分布式计算能力。”云计算是一个新名词,却不是一个新概念。云计算这个概念从互联网诞生以来就一直存在。很久以前,人们就开始购买服务器存储空间,然后把文件上传到服务器存储空间里保存,需要的时候再从服务器存储空间里把文件下载下来。这和 Dropbox或百度云的模式没有本质上的区别,它们只是简化了这一系列操作而已。云计算是世界各大搜索引擎及浏览器数据收集、处理的核心计算方式。推动着网络数据时代进入更加人性化的历史阶段。
25、云计算是商业化的超大规模分布式计算技术。即用户可以通过已有的网络将所需要的庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的更庞大的系统,经搜寻、计算、分析之后将处理的结果回传给用户。最简单的云计算技术在网络服务中已经随处可见并为我们所熟知,比如搜寻引擎、网络信箱等,使用者只要输入简单指令即可获得大量信息。而在未来的云计算的服务中,云计算就不仅仅是只做资料搜寻工作,还可以为用户提供各种计算技术、数据分析等服务。透过云计算,人们利用手边的PC和网络就可以在数秒之内处理数以千万计甚至亿计的信息,得到和超级计算机同样强大的网络服务,获得更多、更复杂的信息计算的帮助,比如分析DN
展开阅读全文