书签 分享 收藏 举报 版权申诉 / 360
上传文档赚钱

类型配套课件-云计算与大数据.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3224323
  • 上传时间:2022-08-07
  • 格式:PPT
  • 页数:360
  • 大小:11.65MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《配套课件-云计算与大数据.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    配套 课件 计算 数据
    资源描述:

    1、第第1章章 绪绪 论论1.1 云计算的来历及发展云计算的来历及发展1.2 云计算的概念及特征云计算的概念及特征1.3 云计算的应用及比较云计算的应用及比较1.4 大数据的提出及发展大数据的提出及发展1.5 大数据的概念及特征大数据的概念及特征1.6 大数据的作用与挑战大数据的作用与挑战1.7 大数据和云计算的关系大数据和云计算的关系重点:重点:云计算概念、特征云计算概念、特征 大数据概念、特征大数据概念、特征 大数据作用、挑战大数据作用、挑战难点:难点:大数据和云计算关系大数据和云计算关系本章重点及难点1.1.1 云计算的诞生 现代的云计算模式诞生于上个世纪90年代末的互联网大潮。1997年,

    2、Ramnath Chellapa教授在一次演讲中第一次提出了“云计算”这个词;1999年成立的S公司是公认的云计算先驱,它主要向企业客户销售基于云的SaaS(Software as a Service软件即服务)产品。1.1 云计算的来历及发展云计算的来历及发展 1.1.2 云计算的发展 进入21世纪的第一个十年,Amazon接棒S推动云计算的快速发展。Amazon在公司内部实施数据中心建设计划,得到了不错的回馈,接着将这个服务开发给外部用户,并命名为AWS(Amazon Web Service亚马逊网络服务)。1.1.2 云计算的发展继Amazon AWS之后,各种云计算产品层出不穷地出现,

    3、Microsoft、Google等巨头纷纷涌进这个领域。除了数量的增长,云计算类型也日益丰富,除了S Amazon AWS分别代表SaaS和IaaS(Infrastructure as a Service设施即服务)两种云计算服务,第三种服务PaaS(Platform as a Service平台即服务)也快速发展起来,如:2009年发布的Google App Engine服务。1.1.2 云计算的发展进入21世纪的第二个十年,云计算进入了百花齐放的时代。人们已经不再讨论云计算是否进行,主要的问题是云计算未来的发展方向,研究在大数据时代怎样将云计算的潜力充分发挥出来,从而更好利用数据的价值。1

    4、.2.1 什么是云计算 百度百科中的解释:云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。1.1 云计算的概念及特征云计算的概念及特征1.2.1 什么是云计算 维基百科中的解释:云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。1.2.1 什么是云计算 CSA(Cloud Security Alliance云计算安全联盟)的解释:云计算的本质是一种服务提供模型,通过这种模型可以随时、随地、按需地通过网络访问共享资源

    5、池的资源,这个资源池的内容包括计算资源、网络资源、存储资源等,这些资源能被动态地分配和调整,在不同用户之间灵活地划分,凡是符合这些特征的IT服务都可以称为云计算服务。NIST(U.S.National Institute of Standards and Technology美国国家标准与技术学院)提出了一个定义云计算的标准“NIST Working Definition of Cloud Computing/NIST800-145”。此标准提出云计算的五大要素是:通过网络分发服务、自助服务、可衡量的服务、资源的灵活调度,以及资源池化;1.2.1 什么是云计算 云计算的服务类型分三类:IaaS

    6、、SaaS和PaaS;按部署模式分为四种:公有云、私有云、混合云和社区云。1.2.2 云计算的特征1.自助式服务2.通过网络分发服务 3.资源池化4.资源的灵活调度5.可衡量的服务 1.3.1 云计算的应用范围 云计算为用户提供动态、可扩展的计算资源,也就是说,用户享用的计算资源可以根据客户流量需要随时增减。云计算的特点对于现有的企业,特别是对计算资源要求随时间变化的企业具有相当大的吸引力。利用云计算的弹性资源,企业解决了因需求量突然增加而出现计算资源不足的问题,同时避免了因闲置过剩计算资源而造成的浪费。1.3 云计算的应用及与其他服务模式区别云计算的应用及与其他服务模式区别1.3.1 云计算

    7、的应用范围 云计算也特别适合刚刚起步的IT企业。利用云计算服务,企业可以花费较少的资金从云计算服务商那里获得所需的网络计算资源,随着业务的发展,再决定是否逐步增加租用云计算服务,甚至设立自己的数据中心。如果企业决定改变经营方向,也不用丢弃现有设备,另起炉灶,从而降低风险。1.3.1 云计算的应用范围 随着云计算的普及,人们开发的软件将会越来越多地借助互联网的强大功能,更多的软件将在在互联网上直接为用户提供服务,这将给软件开发者(无论企业还是个人)带来他们的黄金时代。1.3.1 云计算的应用范围 不是所有的软件都需要搬到云计算中。云计算也不是对每个开发商都适合。对计算资源需求不大,所需资源没有大

    8、起大落的网上软件,从目前来说,云计算并不能带来特别的好处。1.3.2云计算与其他计算服务模式的区别 云计算与一般托管环境的区别云计算与网格计算的区别1.3.2云计算与其他计算服务模式的区别云计算系统与传统超级计算机的区别 1.4.1 大数据的提出 大数据一词源于英文的“Big Data”,早在1980年,著名未来学家阿尔文托夫勒的第三次浪潮一书中,就出现过大数据的表述。但如果要追溯“大数据”的最初出处,就必然要提及Apache org的开源项目Nutch。当时大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(

    9、GFS)发布后,大数据的含义中除了涵盖大量数据之外,还包括数据处理的速度。1.4 大数据的提出与发展大数据的提出与发展1.4.2 大数据的发展 1.5.1 什么是大数据?对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。1.4 大数据的概念、特征及挑战大数据的概念、特征及挑战 1.5.1 什么是大数据?麦肯锡全球研究所的大数据:创新、竞争和生产力的下一个前沿报告中对“大数据”的定义是:大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群

    10、。但这个定义中没有说明什么样规格的数据才是大数据。1.5.1 什么是大数据?按照美国信息存储资讯科技公司易安信(EMC)的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据集。关于大数据如何定义尚没有一个统一的意见,结合大数据的四个特征,可以给出一个较为清晰的大数据概念。1.5.2 大数据的特征大数据特征可概括为四个V:大量化(Volume)多样化(Variety)快速化(Velocity)价值(Value)关于大数据第关于大数据第4个个V特征的另一种观点:特征的另一种观点:在普遍认同大数据的数据体量(volumes)大,数据类别(va

    11、riety)多,产生速度快,要求数据处理速度(Velocity)快的3V特征后,关于最后一个特征的另一种观点是:第4个V指数据真实性(Veracity)要求高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。结构化和非结构化数据按数据结构,数据分为结构化数据、半结构化的非结构化数据和无结构的非结构化数。结构化数据一般是指可以存储在数据库中,用二维表结构来逻辑表达实现的数据。如表1-1所示。客户号客户姓名商品单价商品名称商品数量2014111001汪伟1000.0冰箱12015120602李萍508.0电磁炉1非结

    12、构化数据相对于结构化数据,一般将不方便用二维表结构来表现的数据即称为非结构化数据,包括:半结构化数据介于完全结构化数据和完全无结构化数据之间的数据,半结构化数据格式较规范,一般是纯文本数据,可以通过某种方式解析得到每项数据。最常见的是日志数据、XML、JSON等格式数据。无结构化数据指非纯文本类数据,没有标准格式,无法直接解析出相应的值。常见的有富文本文档(Rich Text Format,简称RTF)、多媒体(图像、声音、视频等)。1.6.1 大数据的作用大数据的作用1.大数据对企业影响深远2.大数据是一种新商品 3精准营销需要大数据 1.6 大数据的作用与挑战大数据的作用与挑战1.6.2大

    13、数据的挑战大数据的挑战1.业务视角不同带来的挑战 2.技术架构不同带来的挑战3管理策略不同带来的挑战 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。1.7 大数据和云计算的关系大数据和云计算的关系 云计算包含两方面的内容:服务和平台,所以云计算既是商业模式,也是计算模式。就目前技术发展来看,云计算以数据为中心,以虚拟化技术为手段来整合服务器、存储、网络、应用等在内的各种资源,并利用SOA架构为用户提供安全、可靠、便捷的

    14、各种应用数据服务;第第2章章 大数据环境下的云计算架构大数据环境下的云计算架构 2.1 大数据环境的技术特征大数据环境的技术特征 2.2 云计算的架构及标准化云计算的架构及标准化2.3 国内外的云计算架构国内外的云计算架构2.4 云计算应用云计算应用重点:重点:大数据环境技术特征大数据环境技术特征 云计算架构云计算架构 云计算应用云计算应用难点:难点:云计算标准化云计算标准化本章重点及难点 2.1 大数据环境的技术特征大数据环境的技术特征大数据来源于互联网、企业系统和物联网等信息系统。传统的信息系统一般定位为面向个体信息生产,供局部简单查询和统计应用的信息系统,其输入是个体少量的信息,处理方式

    15、是移动数据在系统中进行加工,输出是个体信息或某一主题的统计信息。而大数据的信息系统定位为面向全局,供复杂统计分析和数据挖掘的信息系统,其输入会是TB级的数据,处理方式是移动逻辑到数据存储,对数据进行加工,输出是与主题相关的各种关联信息。2.1 大数据环境的技术特征大数据环境的技术特征项目传统的管理信息系统大数据管理系统系统目的现实事项的数据生产基于已有数据的应用构建前提结构化设计分析与挖掘模型建立依赖对象人、物信息系统加工对象数据逻辑处理模式线性处理并行处理数据采集范围局部全局存储集中存储分布式存储价值记录历史方式的事件信息发现问题、科学决策效果数据生产、简单应用统计挖掘、复杂应用呈现局部个体

    16、的信息展现个体在全局中的展现表现形态ERP、OA等系统宏观决策信息系统作用企业信息化企业智慧“大脑”大数据的信息管理系统则要求数据经过其的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现,每个环节都面临不同程度的技术上的挑战。2.1 大数据环境的技术特征大数据环境的技术特征 2.1 大数据环境的技术特征大数据环境的技术特征图2-1 大数据技术架构 数据准备环节 数据存储与管理环节 计算处理环节 数据分析环节 知识展现环节 2.1

    17、大数据环境的技术特征大数据环境的技术特征 2.2 云计算架构及标准化云计算架构及标准化2.2.1 云计算的架构云计算的架构 云计算架构主要可分为四层,其中三层是横向的,分云计算架构主要可分为四层,其中三层是横向的,分别是显示层、中间件层和基础设施层,通过这三层技术别是显示层、中间件层和基础设施层,通过这三层技术能够提供非常丰富的云计算能力和友好的用户界面,还能够提供非常丰富的云计算能力和友好的用户界面,还有一层是纵向的,称为管理层,是为了更好地管理和维有一层是纵向的,称为管理层,是为了更好地管理和维护横向的三层而存在的。护横向的三层而存在的。2.2.1 云计算的架构云计算的架构2.2.1 云计

    18、算的架构云计算的架构1.显示层 云计算架构的显示层主要用于以友好的方式展现用户所需的内容,并利用下面的中间件层提供的多种服务。主要有如下五种技术:HTML:JavaScript:CSS:Flash:Silverlight:2.中间件层此层是承上启下的,它在下面的基础设施层所提供资源的基础上提供了多种服务,比如缓存服务和REST服务等,而且这些服务即可用于支撑显示层,也可以直接让用户调用,并主要有五种技术:REST:多租户:并行处理:应用服务器:分布式缓存:2.2.1 云计算的架构云计算的架构2.2.1 云计算的架构云计算的架构3.基础设施层此层作用是为给上面的中间件层或者用户准备其所需的计算和

    19、存储等资源,主要有四种技术:虚拟化:分布式存储:关系型数据库:NoSQL:4.管理层此层为横向的其他三层提供多种管理和维护等方面的技术,主要有以下六个方面:账号管理 SLA监控 计费管理 安全管理 负载均衡 运维管理 2.2.1 云计算的架构云计算的架构 云计算标准化是云计算真正大范围推广和应用的前提。没有标准,云计算产业就难以得到规范、健康的发展,难以形成规模化和产业化集群发展。2.2.2 云计算标准化云计算标准化总的来说,目前参与云计算标准化工作的国外标准化组织和协会呈现以下特点:(1)三大国际标准化组织从多角度开展云计算标准化工作序号标准组织和协会个数覆盖范围1ISO/IEC JTC1

    20、SC7、SC27、SC38、SC39、ITU-T SG135国际标准化组织2DMTF、CSA、OGF、SNIA、OCC、OASIS、TOG、ARTS、IEEE、CCIF、OCM、Cloud use case、A6、OMG、IETF、TM Forum、ATIS、ODCA、CSCC19国际标准化协会3ETSI、Eurocloud、ENISA3欧洲4GICTF、ACCA、CCF、KCSA、CSRT 5亚洲5NIST 1 美洲2.2.2 云计算标准化云计算标准化(2)知名标准化组织和协会积极开展云计算标准研制(3)新兴标准化组织和协会有序推动云计算标准研制2.2.2 云计算标准化云计算标准化国际云计算

    21、标准化工作分析 总的来说,33个标准化组织和协会的云计算标准化工作分类情况如表2-3所示。分析这33个组织和协会的标准化工作主要集中在以下5个方面。应用场景和案例分析通用和基础标准互操作和可移植标准服务标准安全标准2.2.2 云计算标准化云计算标准化 国内云计算标准化工作体系 基础标准 网络标准 整机装备标准 软件标准 服务标准 安全标准 其他标准2.2.2 云计算标准化云计算标准化 2.3 国外云计算架构国外云计算架构2.3.1 国外云计算架构国外云计算架构层次典型云计算服务SaaSGoogle Apps、Salesforce CRM 等PaaSGoogle App Engine、Micro

    22、soft Azure 等IaaSAmazon EC2、Amazon S3、Rackspace cloudserver 等2.3.2 国内云计算架构国内云计算架构层次典型云计算服务SaaS电子商务云、中小企业云、医疗云、教育云等PaaSAPP开发环境、APP测试环境、应用引擎等IaaS虚拟机租用服务、存储服务、负载均衡服务、防火墙服务等国内云计算主要集中在SaaS层,PaaS和IaaS的服务还在不断发展中。随着云计算的不断发展,云计算的应用将越来越广泛,主要有:电子邮箱服务云呼叫应用私有云应用云游戏应用云教育应用云会议应用云社交服务 2.4 云计算应用领域云计算应用领域第第3章章 大数据关键技术

    23、与应用大数据关键技术与应用 3.1 大数据技术总体框架大数据技术总体框架 3.2 大数据存储技术大数据存储技术3.3 大数据处理技术大数据处理技术3.4 大数据分析技术大数据分析技术重点:重点:大数据存储技术大数据存储技术 大数据处理技术大数据处理技术 大数据分析技术大数据分析技术本章重点云计算是新的商业模式。大数据的本质是应需求驱动的,大数据的应用最终使云计算模式落地。大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。大数据对数据存储、处理和分析三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数

    24、据技术创新的焦点。3.1 大数据技术总体框架大数据技术总体框架3.1.1总体目标总体目标 业务环节业务需求技术实现产生大数据操作数据容量:每18个月翻一番数据类型:多于80%的数据来自于非机构化数据数据速度:数据来源不断变化,数据快速流通采用一个统一的大数据处理方法,使得企业用户能够快速处理和加载海量数据,能够在统一平台上对不同类型的数据进行处理和存储聚集管理大数据的复杂性,需要分类、同步、聚合、集成、共享、转换、剖析、迁移、压缩、备份、保护、恢复、清洗、淘汰各种类型数据一个数据集成和管理平台,集成各种工具和服务来管理异构存储环境下的各类数据分析当前数据仓库和数据挖掘擅长分析结构化的事后数据,

    25、在大数据环境下要求能够分析非结构化数据,包括流文件,并能进行实时分析和预测建立一个实时预测分析解决方案,整合结构化的数据仓库和非结构化的分析工具利用满足不同的用户对大数据的实时的多种访问方式任何时间、任何地点、任何设备上的集中共享和协同需要理解大数据怎样影响业务,怎样转化为行动对大数据影响业务和战略进行建模,并利用技术来实现这些模型3.1.2 架构设计原则架构设计原则 3.1.3 总体架构的特点总体架构的特点大数据技术架构具备集成性、架构先进性和实时性等特点。1.统一、开发、集成的大数据平台 可基于开源软件实现Hadoop基础工具的整合;能与关系型数据库、数据仓库通过JDBC/ODBC连接器进

    26、行连接;能支持地理分布的在线用户和程序,并行执行从查询到战略分析的请求;用户友好的管理平台,包括HDFS浏览器和类SQL查询语言等;提供服务、存储、调度和高级安全等企业级应用的功能。2.低成本的可扩展性 支持大规模可扩展性,到PB级数据源;支持极大的混合工具负载,各种数据类型包括任意层次的数据结构、图像、日志等;节点间无共享(sharing-nothing)的集群数据库体系结构;可编程和可扩展的应用服务器;简单的配置、开发和管理;以线性成本扩展并提供一致的性能;标准的普通硬件。3.实时地分析执行 在声明或发现数据结构之前装载数据;能以数据全载入的速度来准确更新数据;可调度和执行复杂的几百个节点

    27、的工作流;在刚装载的数据上,可实时执行流分析查询;能以大于每秒1GB的速率来分析数据。4.可靠性当处理节点失效时,自动恢复并保持流程连续,不需要中断操作。3.2.1 大数据如何存储大数据如何存储 3.2 大数据存储技术大数据存储技术按照数据的结构不同,数据可以被分为结构化的大数据、非结构化的大数据和半结构化的大数据。1、结构化数据存储结构化数据通常是人们所熟悉的数据库中的数据,它本身就是一种对现实已发生事项的关键要素进行抽取的有价信息。数据库中积累的结构化数据越来越多,一些问题显现出来,这些问题可以分为四类:1)历史数据和当前数据都存在一个数据库中,导致系统处理速度越来越慢;2)历史数据与当前

    28、数据的期限如何界定;3)历史数据应如何存储;4)历史数据的二次增值如何解决。3.2.1 大数据如何存储大数据如何存储 分布式数据库系统是数据库技术和网络技术相结合的产物。它通常使用体积较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都有DBMS的一份完整的副本,并具有自己局部的数据库。位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的。全局的大型数据库。分布式数据库系统具有以下主要特点:1)物理分布性:数据不是存储在一个场地上,而是存储在计算机网络的多个场地上;2)逻辑整体性:数据物理分布在各个场地上,但逻辑上是一个整体,它们被所有的用户(全局用户)共享,并由一个主节点统

    29、一管理;3)具有灵活的体系结构,适应分布式的管理和控制机构;4)适当增加数据冗余度,系统的可靠性高,可用性好;5)可扩展性好,易于集成现有的系统。3.2.1 大数据如何存储大数据如何存储2、非结构化数据存储常见的非结构化数据包括文件、图片、视频、语音、邮件和聊天记录等,和结构化数据相比,这些数据是未被抽象出有价值信息的数据,需要经过二次加工才能得到其有价值信息。由于非结构化数据的生产不受格式约束、不受主题约束,人人随时都可以根据自己的视角和观点进行创作生产,所以数据量比结构化数据大。3.2.1 大数据如何存储大数据如何存储 由于非结构化数据具有形式多样、体量大、来源广、维度多、有价内容密度低、

    30、分析意义大等特点,所以要为了分析而存储,而不是为了存储而存储,即存储工作是分析的前置工作。当前针对非结构化数据的特点均采用分布式文件系统方式来存储这些数据。分布式文件系统将数据存储在物理上分散的多个存储节点上,对这些节点的资源进行统一管理和分配,并向用户提供文件系统访问接口,主要解决本地文件系统在文件大小、文件数量、打开文件数等的限制问题。3.2.1 大数据如何存储大数据如何存储 分布式文件系统的数据存储解决方案归根结底是将大问题划分为小问题。大量的文件均分布到多个数据服务器上后,每个数据库服务器存储的文件数量就少了。此外,还能将单个服务器桑存储的文件数降到单机能解决的规模;对于很大的文件,可

    31、以将大文件划分成多个相对较小的片段,存储在多个数据服务器上。3.2.1 大数据如何存储大数据如何存储3.2.1 大数据如何存储大数据如何存储3.半结构化数据存储半结构化数据是指数据中既有结构化数据,也有非结构化数据,比如,摄像头回转给后端的数据中有位置、时间等结构化数据,还有图片等非结构化数据。这些数据是以数据流的形式传递的,所以半结构化数据也叫流数据。对流数据进行处理的系统叫做数据流系统。数据流的特点是数据不是永久存储在数据库中的静态数据,而是瞬时处理的源源不断的连续数据流。在大量的数据流应用系统中,数据流来自于地理上不同位置的数据源,非常适合分布式查询处理。(2)知名标准化组织和协会积极开

    32、展云计算标准研制(3)新兴标准化组织和协会有序推动云计算标准研制3.2.1 大数据如何存储大数据如何存储大数据存储对底层硬件架构和文件系统在性价比上的要求要大大高于传统技术,同时要求能够弹性扩展存储容量。但以往网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算时I/O容易成为瓶颈。3.2.2 大数据存储问题大数据存储问题对于大数据存储,以下问题不能忽视。容量问题延迟问题安全问题成本问题数据的积累灵活性应用感知针对小用户3.2.2 大数据存储问题大数据存储问题 3.3 大数据处理技术大数据处理技术3.3.1

    33、storm平台平台 Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm也可被用于“连续计算”。在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm保证每个消息都会得到处理,而且速度很快,在一个小集群中,每秒可以处理数以百万计的消息。Storm的主要特点的主要特点 简单的编程模型 可以使用各种编

    34、程语言 容错性 水平扩展 可靠的消息处理 快速 本地模式Storm的集群架构的集群架构 Storm集群由一个主节点和多个工作节点组成:master节点和worker节点。master节点运行一个守护进程,叫Nimbus,类似Hadoop中的JobTracker。Nimbus负责在集群中分发代码,分配任务,以及故障检测。每个worker节点运行一个守护进程,叫Supervisor。Supervisor监听分配到该服务器的任务,开始和结束工作进程。每个worker进程执行topology的一个子集;一个运行中的topology由许多分布在多台机器上的worker进程组成。Nimbus和Superv

    35、isors之间是通过Zookeeper协调。此外,Nimbus和Supervisor是能快速失败(fail-fast)和无状态的(stateless);所有的状态都保存在Zookeeper或者在本地磁盘中。当Nimbus或者Supervisors出现问题重启后会自动恢复,好像什么也没发生过。这项设计使得Storm集群变得非常稳定健壮。Storm集群架构 Storm的缺点的缺点 1)编程门槛对普通用户来说较高2)框架本身不提供持久化存储3)框架不提供消息接入模块4)Storm UI功能过于简单5)Bolt复用困难 6)存在Nimbus单点失效问题7)Topology不支持动态部署 3.4.1“大

    36、数据大数据”分析特点及技术路线分析特点及技术路线 3.3 大数据分析技术大数据分析技术 大数据分析具有五个特点:1)大数据分析应是可视化分析2)大数据分析的理论核心是数据挖掘算法3)大数据分析最重要的应用领域之一就是预测性分析 4)大数据分析广泛应用于网络数据挖掘5)大数据分析离不开数据质量和数据管理 2.大数据分析技术路线 目前的大数据分析主要有两条技术路线,一是凭借先验知识人工建立数学模型来分析数据,二是通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力。3.4.2“大数据大数据”分析过程分析过程数据分析过程的主要活动由识别信息需求、收集数据、分析数据

    37、、评价并改进数据分析的有效性组成。3.4.3“大数据大数据”分析方法分析方法 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。大数据分析的研究对象是大数据,它侧重于在海量数据中的分析挖掘出有用的信息。对应于大数据分析的两条技术路线其分析方法可分为两类:一是统计分析方法,另一个是数据挖掘方法。1统计分析方法1)描述性统计分析 2)回归分析3)因子

    38、分析4)方差分析2.数据挖掘方法1)分类和预测2)关联规则3)聚类 3.统计分析和数据挖掘的联系与区别统计分析和数据挖掘的联系与区别1)统计分析和数据挖掘的联系 从两者的理论来源来看,它们都源于统计理论基础理论,因此它们的许多方法在很多情况下都是同根同源的。比如,概率论和随机事件是统计学的核心理论之一,统计分析中的抽样估计需要应用该理论,而在数据挖掘技术的贝叶斯分类中,就是这些统计理论的发展和延伸。2)统计分析和数据挖掘的区别 统计分析的基础之一是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性;

    39、但是在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。3.5 全球大数据公司盘点 IBM网址:http:/ 亚马逊网址:http:/ 全球大数据公司盘点 甲骨文网址:http:/ 全球大数据公司盘点 谷歌网址:http:/ 全球大数据公司盘点 微软网址:http:/ 全球大数据公司盘点 EMC网址:http:/ 全球大数据公司盘点 7Teradata 网址:http:/ 公司地址:美国俄亥俄州迈阿密斯堡 业务方向:面向各类企业市场3.5 全球大数据公司盘点 8NetApp 网址:http:/

    40、 上线时间:2011年 公司地址:美国加利福尼亚州森尼韦尔 业务方向:面向各类企业市场3.5 全球大数据公司盘点 9Sybase 网址:http:/ 上线时间:2011年 公司地址:美国加利福尼亚州都柏林市 业务方向:面向各类企业市场3.5 全球大数据公司盘点 10.惠普 网址:http:/ 公司地址:美国利福尼亚州帕罗奥多市 业务方向:面向各类企业市场3.5 全球大数据公司盘点 11沃尔玛 网址:http:/ 公司地址:阿肯色州本顿维尔镇 业务方向:连锁零售业3.5 全球大数据公司盘点 12.百度 网址:http:/ 公司地址:中国北京中关村3.5 全球大数据公司盘点 13.阿里巴巴 网址:

    41、http:/ 公司地址:中国杭州 公司业务:淘宝、天猫、阿里巴巴国际交易平台、阿里云等3.5 全球大数据公司盘点 14.腾讯 网址:http:/www.QQ.com/创办时间:1998年 公司地址:中国深圳 公司业务:QQ、微信、腾讯网等3.5 全球大数据公司盘点 第第4章章 云存储云存储4.1 认识云存储认识云存储4.2 云存储技术云存储技术4.3 云存储的应用及面临的问题云存储的应用及面临的问题重点:重点:云存储技术云存储技术 云存储的运用云存储的运用本章重点云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储

    42、设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。4.1 认识云存储认识云存储当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。图4-1 云存储的简易结构与传统的存储设备相比,云存储是一个网络设备、存储设备、服务器、应用软件、公用访问接口、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。4.2 云存储技术云存储技术4.2.1 4.2.1 云存储

    43、结构云存储结构 1.存储层存储层是云存储最基础的部分。存储设备可以是FC光纤通道存储设备,可以是NAS和iSCSI等IP存储设备,也可以是SCSI或SAS等DAS存储设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此之间通过广域网、互联网或者FC光纤通道网络连接在一起。2.基础管理基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。3.应用接口应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业

    44、务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘引用平台,远程数据备份应用平台等。任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。1)服务模式2)HW模式3)SW模式4.访问层4.2.2 云存储技术的两种架构 紧耦合对称架构 松弛耦合非对称架构4.2.3 云存储的种类云存储的种类云存储可分成两类:块存储(Block Storage)与文件存储(File Storage)。1.块存储块存储会把单笔的数据写到不同的硬盘,借以得到较大的单笔读写带宽,适

    45、合用在数据库或是需要单笔数据快速读写的应用。它的优点是对单笔数据读写很快,缺点是成本较高,并且无法解决真正海量文件的储存,快速更改的单一文件系统,如数据库、共享的电子表单等,由于有好几个人共享一个文件,文件需要经常性地、频繁地更改。为了达到这样的目的,系统必须具备很大的内存、很快的硬盘及快照等功能,此时可以采用块存储类型。1.文件存储文件存储是基于文件级别的存储,它是把一个文件放在一个硬盘上,即使文件太大拆分时,也放在同一个硬盘上。它的缺点是对单一文件的读写会受到单一硬盘效能的限制,优点是对一个多文件、多人使用的系统,总带宽可以随着存储节点的增加而扩展,它的架构可以无限制的扩容,并且成本低廉.

    46、当应用存在文件需并发读取、文件及文件系统本身较大、文件使用期较长和对成本控制要求较高等情况下,采用文件存储是一个较好的选择,如以下应用场合。网站或IPTV应用,此时往往读取文件较大,总读取带宽要求较高。监控应用,此时往往会有多个文件的同时写入。文件备份、存放或搜寻需要访问长时间存放的文件。4.3.1云存储的应用领域云存储的应用领域1备份2.归档3分配4共享协作4.3 云存储的应用及面临的问题云存储的应用及面临的问题4.3.2云存储对大数据存储的支持云存储对大数据存储的支持1.数据的海量化和快增长特征是大数据对存储技术提出的首要挑战。大数据存储要求底层硬件架构和文件系统在性价比上要大大高于传统技

    47、术,并能够弹性扩展存储容量。但以往网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算(Data Intensive Computing)时 I/O 容易成为瓶颈。同时,传统的单机文件系统(如NTFS)和网络文件系统(如 NFS)要求一个文件系统的数据必须存储在一台物理机器上,且不提供数据冗余性,可扩展性、容错能力和并发读写能力难以满足大数据需求。图4-3 大数据存储架构的变化2.大数据对存储技术提出的另一个挑战是多种数据格式的适应能力 格式多样化是大数据的主要特征之一,这就要求大数据存储管理系统能够适应对各

    48、种非结构化数据进行高效管理的需求。4.3.3 云存储应用面临的问题云存储应用面临的问题1安全性2便携性3性能和可用性4数据访问第第5章章 云服务与云安全云服务与云安全 5.1 认识云服务认识云服务5.2 云服务发展历程云服务发展历程5.3 云部署及对大数据的支持云部署及对大数据的支持5.4 云安全云安全重点:重点:云服务的概念云服务的概念 云服务类型云服务类型 云与大数据云与大数据本章重点5.1.1云服务的概念 云服务是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。它通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网

    49、相关,也可是其他服务,如计算能力也可作为一种商品通过互联网进行流通。云服务所秉持的核心理念是“按需服务”。5.1 认识云服务认识云服务图5-1 云服务形态5.1.2 云服务类型云服务类型云服务提供商倾向于提供如下三个类别的服务:IaaS基础设施即服务PaaS平台即服务SaaS软件即服务5.2 云服务发展历程云服务发展历程5.2.1 国际云服务发展国际云服务发展5.2.2 我国云服务发展 我国云服务市场仍处于低总量,高增长的产业初期阶段。据估计,2013年我国公有云服务市场规模约为47.6亿人民币,增速较2012年有所放缓,但仍达到36%,远高于全球平均水平。2013年,我国的IaaS市场规模约为 10.5 亿元,增速达到了105%,显示出旺盛的生机。IaaS 相关企业不仅在规模、数量上有了大幅提升,而且吸引了资本市场的关注,UCloud、青云等 IaaS 初创企业分别获得了千万美元级别的融资。5.3.1 云部署方式IT机构可以选择在适合自己的公有云、专有云或混合云上部署其应用程序。1.公有云5.3 云部署及对大数据的支持云部署及对大数据的支持2.专有云专有云是为一个客户单独使用而构建的,因而对数据、安全性和服务质量提供最有效的控制。混合云把公有云模式与专有云模式结合在一起,混合云有助于提供按需的、外部供应的扩展。3.混合云5.3.2 对大数据的支持对大数据的支持虽然云计算没有从根

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:配套课件-云计算与大数据.ppt
    链接地址:https://www.163wenku.com/p-3224323.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库