书签 分享 收藏 举报 版权申诉 / 82
上传文档赚钱

类型大数据导论思维第1章-大数据时代概念课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3583806
  • 上传时间:2022-09-21
  • 格式:PPTX
  • 页数:82
  • 大小:7.85MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据导论思维第1章-大数据时代概念课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 导论 思维 时代 概念 课件
    资源描述:

    1、 大数据导论第一章CONTENTS目录PART 01 什么是大数据PART 03 大数据的产生与作用PART 04 大数据时代的新理念PART 05 大数据技术概述PART 06 大数据应用实例PART 02 从IT时代到大数据时代PART 07 作业PART 01 什么是大数据大数据本身是一个抽象的概念。一般意义上来讲,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。什么是大数据目前,业界对大数据还没有一个统一的定义,但是大家都普遍认为,大数据具备Volume、Velocity、Variety和Value四个特征,简称为“4V”,即数据体量巨大、产生速度快、

    2、数据类型繁多和价值密度低。下面对每个特征分别作简要描述。BigDataVolumeVelocityVarietyValue数据体量巨大PB级EB级ZB级速度要求快数据输入输出速度数据类型多样文本|图像|视频|音频价值密度低商业价值高近年来,信息技术迅猛发展,尤其是是以互联网、物联网、信息获取技术、社交网络等为代表的技术发展日新月异,促使手机、平板电脑、PC等各式各样的信息传感器随处可见,虚拟网络快速发展,现实世界快速虚拟化,数据的来源及其数量正以前所未有的速度增长。PART 02 从IT时代到大数据时代从IT时代到大数据时代报告显示,2012年全球数据总量达到2.8 ZB(相当于2 800亿G

    3、B),预计到2020年全球数据总量将会超出预期,达到40 ZB(相当于40 000亿GB)。p 若以现有的蓝光光盘为计量标准,那么40ZB的数据全部存入蓝光光盘,所需要的光盘总重量将达到424艘尼米兹号航母的总重量。p 从现在到2020年,基本上每两年数据量就会翻一番。而这些数据约80%是非结构化或半结构化类型的。PART 03 大数据的产生与作用大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。大数据的产生人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,人

    4、类社会的数据产生方式大致经历了3 个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。01运营式系统阶段03感知式系统阶段02用户原创内容阶段3个阶段大数据的产生01 运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大多为运营系统所采用,作为运营系统的数据管理子系统。人类社会数据量第一次大的飞跃是建立在运营式系统开始广泛使用数据库开始的。这个阶段最主要特点是数据往往伴随着一定的运营活动而产生并记录在数据库中的,这种数据的产生方式是被动的。大数据的产生02 用户原创内容阶段:互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web 2.0 时

    5、代,而Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增长,主要有两个方面的原因。首先是以博客、微博、和微信为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。大数据的产生03 感知式系统阶段:人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将

    6、这些设备广泛的布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产生方式是自动的。大数据的产生数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。大数据的作用具体来讲,大数据有如下的作用:对大数据的处理分析正成为新一代信息技术融合应用的结点。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到应用中(社交网络、物联网等),将创造出巨大的经济和社会价值,大数据具有催生社会变革的能量。第一大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产

    7、品、新服务、新业态会不断涌现。第二大数据的作用大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变“数据驱动”。第三大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。第四PART 04 大数据时代的十大变化大数据时代的到来改变了人们的生活方式、思维模式和研究范式,我们可以总结出10个重大变化。大数据时代的十大变化 OldNew研究范式第三范式第四范式数据重要性数据资源数据资产方法论基于知识基于数据数据分析统计学

    8、数据科学计算智能复杂算法简单算法管理目标业务数据化数据业务化决策方式目标驱动数据驱动产业竞合关系以战略为中心以数据为中心对数据复杂性的认识不接受复杂性接受复杂性数据处理模式小众参与大众协同对研究范式的新认识n对研究范式的新认识:从第三范式到第四范式2007年1月,图灵奖获得主、关系型数据库鼻祖Jim Gray发表了演讲:第四范式:数据密集型科学发现提出了科学研究的第四范式数据密集型科学发现。第三范式是指20世纪中期以来的计算科学阶段的“计算科学范式”。面对大量过于复杂的现象,归纳法和演绎法都难以满足科学研究的需求,人类开始借助计算机的高级运算能力对复杂现象进行建模和预测,比如天气、地震、核试验

    9、、原子的运动等。然而,随着近年来人类采集数据量的爆炸性增长,传统的计算科学范式已经越来越无力驾驭海量的科研数据了。正因如此,目前正在从“计算科学范式”转向“数据密集型科学发现范式”。对研究范式的新认识n对研究范式的新认识:从第三范式到第四范式第四范式的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。例如,在大数据时代,天文学家的研究方式发生了新的变化-其主要研究任务变为从海量数据库中发现所需的物体或现象的照片,而不再需要亲自进行太空拍照。对数据重要性的新认识n对数据重要性的新认识:从数据资源到数据资产在大数据时代,数据不仅是一种“资源”,而更是

    10、一种重要的“资产”。因此,数据科学应把数据当做“一种资产来管理”,而不能仅仅当做“资源”来对待。也就是说,与其他类型的资产相似,数据也具有财务价值,且需要作为独立实体进行组织与管理。大数据资产的价值的衡量尺度主要有以下三个方面的标准:1.独立拥有及控制数据资产2.计量规则与货币资本类似3.具有资本一般的增值属性对数据重要性的新认识n对数据重要性的新认识:从数据资源到数据资产总的来说,作为信息时代核心的价值载体,大数据必然具有朝向价值本体转化的趋势,而它的“资产化”,或者未来更进一步的“资本化”蜕变,将为未来完全信息化、泛互联网化的商业模式打下基础。对方法论的新认识n对方法论的新认识:从基于知识

    11、到基于数据传统的问题解决思路是“问题知识问题”,即根据问题找“知识”,并用“知识”解决“问题”。然而,数据科学中兴起了另一种方法论-“问题数据问题”,即根据问题找“数据”,并直接用数据(不需要把“数据”转换成“知识”的前提下)解决问题,如图所示。对方法论的新认识n对方法论的新认识:从基于知识到基于数据对数据分析的新认识n对数据分析的新认识:从统计学到数据科学在传统科学中,数据分析主要以数学和统计学为直接理论工具。但是,云计算等计算模式的出现以及大数据时代的到来,提升了我们对数据的获取、存储、计算与管理能力,进而对统计学理论与方法产生了深远影响。大数据带给我们的三个颠覆性观念转变:1.不是随机样

    12、本,而是全体数据。2.不是精确性,而是混杂性。3.不是因果关系,而是相关关系。对计算智能的新认识n对计算智能的新认识:从复杂算法到简单算法“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”。只要对大数据的进行简单查询就可以达到“基于复杂算法的智能计算的效果”。对数据管理重点的新认识n对数据管理重点的新认识:从业务数据化到数据业务化在传统数据管理中企业更加关注的是业务的数据化问题,即如何将业务活动以数据方式记录下来,以便进行业务审计、分析与挖掘。在大数据时代,企业需要重视一个新的课题:数据业务化,即如何“基于数据

    13、”动态地定义、优化和重组业务及其流程,进而提升业务的敏捷性,降低风险和成本。业务数据化是前提,而数据业务化是目标。对决策方式的新认识n对决策方式的新认识:从目标驱动型到数据驱动型在传统科学思维中,决策制定往往是“目标”或“模型”驱动的,也就是,根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。改变企业传统凭感觉的方式。而更好的方式应该是靠数据来驱动。比如,一个产品的界面,到底是绿色背景好还是蓝色背景好,从设计的层面考虑,是都有可能的。那么就可以做一下 A/B 测试。可以让 50%的人显示绿色背景,50%的人显示

    14、蓝色背景,然后看用户点击量。哪个点击比较多,就选择哪个。这就是数据驱动,这样就转变成不是凭感觉,而是通过数据去决策。对竞合关系的新认识n从以战略为中心到以数据为中心在大数据时代,企业之间的竞合关系发生了变化,原本相互激烈竞争,甚至不愿合作的企业,不得不开始合作,形成新的业态和产业链。传统的竞合关系是以战略为中心,在大数据时代,竞合关系是以数据为中心。竞合关系,即在竞争中合作,在合作中竞争。数据复杂性的新认识n数据复杂性的新认识:从不接受到接受数据的复杂性在传统科学看来,数据需要彻底“净化”和“集成”,计算目的是需要找出“精确答案”,而其背后的哲学是“不接受数据的复杂性”。然而,大数据中更加强调

    15、的是数据的动态性、异构性和跨域等复杂性弹性计算、鲁棒性、虚拟化和快速响应,开始把“复杂性”当作数据的一个固有特征来对待,组织数据生态系统的管理目标转向将组织处于混沌边缘状态。对数据处理模式的新认识n对数据处理模式的新认识:从小众参与到大众协同传统科学中,数据的分析和挖掘都是具有很高专业素养的“企业核心员工”的事情,企业管理的重要目的是如何激励和绩效考核这些“核心员工”。但是,在大数据时代,基于“核心员工”的创新工作成本和风险越来越大,而基于“专家余(Pro-Am)”的大规模协作日益受到重视,正成为解决数据规模与形式化之间矛盾的重要手段大数据关键技术涵盖从数据存储、处理、应用等多方面的技术,根据

    16、大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘等、大数据展示等环节。PART 05 大数据技术概述大数据处理的基本流程大数据关键技术涵盖从数据存储、处理、应用等多方面的技术。n 大数据处理的基本流程 数据采集 数据抽取与集成 数据分析及挖掘 数据解释大数据处理的基本流程数据抽取与集成大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。因此,要处理大数据,必须对所需的数据进行抽取和集成。在这个过程中,需要提取数据的实体和关系,经过关联和聚类之后,采用统一的结构来存储这些数据。还需要对数据进行清洗,保证数据质量及可信性。还要注意大

    17、数据时代数据模式和数据的关系,大数据时代的数据往往是先有数据再有模式,并且模式是在不断的动态演化之中。大数据处理的基本流程数据抽取与集成数据抽取和集成技术并不是一项全新的技术,在传统数据库领域此问题就已经得到了比较成熟的研究。现有的数据抽取与集成方式可以大致分为以下四种类型:基于物化或ETL方法的引擎(Materialization or ETL Engine)基于联邦数据库或中间件方法的引擎(Federation Engine or Mediator)基于数据流方法的引擎(Stream Engine)基于搜索引擎的方法(Search Engine)大数据处理的基本流程数据分析数据分析是整个大

    18、数据处理流程的核心,因为大数据的价值就产生于分析过程。数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。大数据时代的数据分析技术面临着一些新的挑战,主要有:1、数据量大并不一定意味着数据价值的增加 2、大数据时代的算法需要进行调整。3、数据结果的衡量标准。大数据处理的基本流程数据解释数据分析是大数据处理的核心,但是用户往往更关心结果的展示,即数据解释。提升大数据解释能力可从如下两个方面考虑:1、引入可视化技术通过对分析结果的可视化用形象的方式向用户展示结果,而且图形化的方式比文字更易理解和接受。常见的可视化技术有标签云(Tag Cloud

    19、)、历史流(History Flow)、空间信息流(Spatial Information Flow)等。2、让用户能够在一定程度上了解和参与具体的分析过程大数据关键技术大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理技术。根据大数据的处理过程,可将其分为:大数据采集 大数据预处理 大数据存储及管理 大数据分析及挖掘 大数据展示大数据关键技术大数据采集技术数据来源多种多样、数据量大、产生速度快,所以针对不同数据源,数据采集方法也不同。采集方法,主要分为四类 数据库采集 系统日志采集 网络数据采集 感知设备数据采集大数据关

    20、键技术大数据采集技术n 数据库采集一般企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。这种方法通常在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS、Hive、HBase)与传统关系数据库(MySql、Oracle等)间进行数据传递工作。大数据关键技术大数据采集技术n 数据库采集大数据关键技术大数据采集技术n 系统日志采集日志收集系统就是收集业务日志数据,供离线和在线的分析系统使用。具有的特征是

    21、高可用、高可靠、可扩展 企业常用的系统日志采集工具Hadoop的ChukwaCloudera的Flume Facebook的Scribe大数据关键技术大数据采集技术n 网络数据采集网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。大数据关键技术大数据采集技术n 感知设备数据采集感知设备数据采集指从传感器、摄像头和其他智能终端自动采集信号、图片或录像,送到上位机中进行处理和分析。大数据智能感知系统主要包括:数据传感体系 网络通信体系 传感适配体系 智能识别体系 软硬件资源接入系统大数据关键技术大数据预处理技术大数据预处理主要完成对已接收数据的辨析、抽取、清洗、填补、平

    22、滑、合并、规格化以及检查一致性等操作。通常数据预处理包含三个部分:数据清理 数据集成、变换 数据规约大数据关键技术大数据预处理技术n 数据清理对于大数据来说,并不是所有的数据都是有价值的,有些数据不是我们关心的内容,有些甚至是错误的干扰项,因此要对数据过滤、去噪,从而取出有效的数据。p 数据清理主要包含 遗漏值处理(缺少感兴趣的属性)噪音数据处理(数据中存在着错误、或偏离期望值的数据)不一致数据处理大数据关键技术大数据预处理技术n 数据集成与变换数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。p 这一过程中需要着重解决三个问题:模式匹配 数据冗余 数据值冲突检测与处理大数据关键

    23、技术大数据预处理技术n 数据规约数据规约技术可以实现庞大数据集的规约,使得数据集变小的同时仍然近于保持原数据的完整性。p 数据规约主要包括:数据方聚集 维规约 数据压缩 数值规约 概念分层等大数据关键技术大数据存储及管理技术大数据存储与管理的主要目的是用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。大数据存储与管理技术主要解决:海量文件的存储与管理 海量小文件的存储、索引和管理 海量大文件的分块与存储 系统可扩展性与可靠性大数据关键技术大数据存储及管理技术从功能上划分,可以分为 分布式文件系统 NoSQL数据库系统 和数据仓库系统这三类系统分别用来存储和管理非结构化、半结构

    24、化、结构化数据。大数据关键技术大数据存储及管理技术n 1、分布式文件系统分布式文件系统是支撑上层大数据应用的基础,用来存储无结构数据。大数据文件存储系统采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,即为同一份数据存储多个副本。目前使用最广泛的大数据文件存储系统是:Google的GFS(Google File System)Hadoop基于GFS开发开源HDFS(Hadoop Distributed File System)大数据关键技术大数据存储及管理技术n 2、NoSQL数据库系统由于NoSQL没有固定的数据模式并且可以水平扩展,因此能够很好地应对海量数据的挑战。

    25、相对于关系型数据库而言,NoSQL最大的不同是不使用SQL作为查询语言。NoSQL数据库主要优势有:避免不必要的复杂性 高吞吐量 高水平扩展能力和低端硬件集群 避免昂贵的对象-关系映射大数据关键技术大数据存储及管理技术n 3、数据仓库系统数据仓库是一个面向主题的、集成的、不可更新的、随时间变化的数据集合,它用于支持企业或组织的决策分析处理。Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表。Hive本身并不存储和处理数据,而是依赖于HDFS存储数据。大数据关键技术数据分析技术大数据处理的核心就是对大数据进行分析,数据分析可以分为广

    26、义的数据分析和狭义的数据分析,广义的数据分析包括狭义的数据分析和数据挖掘。n 1、狭义数据分析 数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的大量数据进行处理与分析,提取有价值的信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析采用的主要方法包括对比分析、分组分析、交叉分析、和回归分析等常用分析方法。大数据关键技术数据分析技术n 2、数据挖掘数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。数据挖掘的重点在于寻找未知的模式与规律;n 3、数据挖掘常用的方法 分类 聚类 关联 预测(定量、定性)大数据关键技术数

    27、据分析技术大数据关键技术大数据展示技术大数据展示技术用图表甚至动态图的形式将数据更加直观的展现给用户,减少用户的阅读和思考时间,以便很好地做出决策。在大数据时代,数据可视化工具必须具有以下特性:实时性 简单操作 更丰富的展现 多种数据集成支持方式大数据关键技术大数据展示技术数据可视化功能主要通过编程和非编程两类工具实现。主流的编程工具有 Processing.js R语言 D3.jsR R语言绘制的航线图语言绘制的航线图大数据处理模式大数据的应用类型很多,主要的处理模式可以分为流处理(Stream Processing)和批处理(Batch Processing)两种二者最显著的区别是:批处理

    28、是先存储后处理(Store-Then-Process),而流处理则是直接处理(Straight-Through Processing)。大数据处理模式批处理模式MapReduce编程模型是最具代表性的批处理模式。首先将原始数据分块,然后交给不同的Map任务。Map任务从输入中解析出Key/Value对集合,然后执行map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后,会根据key 值进行排序,将具有相同key 值的规约在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。大数据处理模式批处理模式MapReduce编程模型是最具代表性的批

    29、处理模式。MapReduce的核心设计思想:分而治之 把计算推到数据大数据处理模式流处理模式尽可能快的对最新的数据做出分析并给出结果,目的是防止数据的价值随着时间的流逝而不断减少。流处理的处理模式是将源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。大数据系统的逻辑结构大数据系统的逻辑结构描述了大数据技术组件的组织方式,由4个横向逻辑层和4个纵向逻辑层组成。横向逻辑层包括 大数据来源层 数据采集与存储层 数据分析层 应用层纵向逻辑层包括 信息集成层 大数据治理层 系统管理层 服务质量层大数据系统的逻辑结构大数据系统的逻辑结构大数据来源层大数据来源层包含了为解决业务问题进行

    30、数据分析所需要的各类数据。数据可以是结构化、半结构化和非结构化的数据。常用的大数据源包括:企业传统系统 数据管理系统 数据存储与管理层 智能设备 聚合数据提供程序 其他数据源大数据系统的逻辑结构数据采集与存储层因为传入的数据可能具有不同的特征,所以数据采集和预处理层中的组件必须具有能够以多种频率、格式、大小和在多种通信渠道上读取数据的能力。数据采集与存储层主要由如下三类组件组成:数据采集组件 数据整理组件 分布式数据存储组件大数据系统的逻辑结构数据分析层数据分析层是从数据中提取业务洞察的层。主要目的,一是:从数据中分析得到计算机可以理解的语义信息或知识;二是:是对隐性的知识,如关联情况、意图等

    31、进行挖掘。包含下列三个组件:实体识别组件 分析引擎组件 模型管理组件大数据系统的逻辑结构应用层数据应用层使用了从分析应用程序获取的业务洞察。例如:借助从分析中获取的洞察,企业可以使用客户偏好数据和位置感知,在客户经过通道或店铺时向他们提供个性化的营销信息。其他应用:利用分析结果来发现欺诈行为 分析结果还可以供推荐引擎使用大数据系统的逻辑结构纵向层影响大数据系统各逻辑层的所有组件的各个方面都包含在垂直层中:信息集成层、大数据治理层、系统管理层和服务质量层。n 信息集成层信息集垂直层可供各种组件使用,负责连接各种数据源。集成具有不同特征的数据源的信息。n 大数据治理层数据治理的主要任务就是定义指南

    32、来帮助企业制定有关数据的正确策略。大数据治理有助于处理企业内部或来源于外部的数据的复杂性。大数据系统的逻辑结构纵向层n 服务质量层服务质量层负责定义数据质量、隐私和安全性的策略、数据采集频率、每次采集的数据量和数据过滤器等。n 系统管理系统管理对大数据至关重要,因为它涉及到跨企业集群和边界的许多系统。对整个大数据生态系统的健康的监视包括:管理系统日志、虚拟机、应用程序和其他设备 关联各种日志,帮助调查和监视具体情形 监视实时警告和通知 使用显示各种参数的实时仪表盘 引用有关系统的报告和详细分析 设定和遵守服务水平协议 管理存储和容量 归档和管理归档检索 执行系统恢复、集群管理和网络管理 策略管

    33、理大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。PART 06 大数据应用实例Google流感趋势大数据应用2008年Google推出了“Google流感趋势”工具,通过跟踪搜索词相关数据来判断全美地区的流感情况。“Google流感趋势”工具的工作原理:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。这个工具根据汇总的Google搜索数据,近乎实时地对全球当前的流感疫情进行估测。Google流感趋势大数据应用大数据在医疗行业的应用医疗大数据的分析会为美国产

    34、生3000亿美元的价值,减少了8%的美国国家的医疗保健支出。应用:Seton Healthcare 是采用 IBM 最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过 3000 次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。大数据在医疗行业的应用大数据在医疗领域的应用包含:药品的研发 个性化医疗 临床抉择支持 流行病 预报与监测 远程患者的数据分析 人口统计学分析大数据能源行业的应用欧洲:智能电网已经做到

    35、了终端,也就是所谓的智能电表。德国:为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过大数据技术实现预测:通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来 23 个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。大数据能源行业的应用通过大数据技术实现预测:维斯塔斯风力系统,依靠的是 BigInsights 软件和 IBM 超级计算机,然后对气象数据进行

    36、分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足 1 小时便可完成。大数据通信行业的应用应用一:中国联通浙江分公司通过使用大数据预测减少了将近一半的客户流失率。公司现在可以对用户进行分类,掌握了每个顾客的消费行为和对公司的贡献度;并且可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而可以及时采取措施,保留客户。应用二:电信公司可以透过数以千万计的客户资料分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国联通浙江分公司通过把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信

    37、息服务。大数据通信行业的应用应用三:中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。大数据在零售业的应用应用一:Informatica公司利用大数据技术帮助一家行业领先的专业时装零售商向客户提供差异化服务。他们通过从Twitter和Facebook上收集社交信息,用社交平台上的数据充实了客户主数据,更深入的理解化妆品的营销模式。随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战

    38、提供了解决方案。大数据在零售业的应用应用二:零售企业也可与监控客户的店内走动情况以及与商品的互动。然后,将这些数据与交易记录相结合来展开分析,从而可以帮助决定销售哪些商品、如何摆放货品以及何时调整售价。此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。PART 07 作业 作业作业:1.什么是大数据?大数据的4大特征是什么?2.什么是业务数据化?什么是数据业务化?它们之间的关系是什么?3.什么是数据资产化?数据资产化对企业的意义是什么?4.大数据给数据分析带来的三个颠覆性观念改变是什么?5.大数据处理的基本流程由哪几个步骤组成?6.大数据技术主要包括哪几个方面?各自的作用是什么?7.大数据处理的两大模式是什么?8.大数据系统的逻辑架构由哪些层组成?各层的作用是什么?9.请描述一个典型的大数据应用。谢谢FOR YOUR LISTENINGHandge CO.LTD.2016.12.09

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据导论思维第1章-大数据时代概念课件.pptx
    链接地址:https://www.163wenku.com/p-3583806.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库