大数据导论思维第1章-大数据时代概念课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据导论思维第1章-大数据时代概念课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 导论 思维 时代 概念 课件
- 资源描述:
-
1、 大数据导论第一章CONTENTS目录PART 01 什么是大数据PART 03 大数据的产生与作用PART 04 大数据时代的新理念PART 05 大数据技术概述PART 06 大数据应用实例PART 02 从IT时代到大数据时代PART 07 作业PART 01 什么是大数据大数据本身是一个抽象的概念。一般意义上来讲,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。什么是大数据目前,业界对大数据还没有一个统一的定义,但是大家都普遍认为,大数据具备Volume、Velocity、Variety和Value四个特征,简称为“4V”,即数据体量巨大、产生速度快、
2、数据类型繁多和价值密度低。下面对每个特征分别作简要描述。BigDataVolumeVelocityVarietyValue数据体量巨大PB级EB级ZB级速度要求快数据输入输出速度数据类型多样文本|图像|视频|音频价值密度低商业价值高近年来,信息技术迅猛发展,尤其是是以互联网、物联网、信息获取技术、社交网络等为代表的技术发展日新月异,促使手机、平板电脑、PC等各式各样的信息传感器随处可见,虚拟网络快速发展,现实世界快速虚拟化,数据的来源及其数量正以前所未有的速度增长。PART 02 从IT时代到大数据时代从IT时代到大数据时代报告显示,2012年全球数据总量达到2.8 ZB(相当于2 800亿G
3、B),预计到2020年全球数据总量将会超出预期,达到40 ZB(相当于40 000亿GB)。p 若以现有的蓝光光盘为计量标准,那么40ZB的数据全部存入蓝光光盘,所需要的光盘总重量将达到424艘尼米兹号航母的总重量。p 从现在到2020年,基本上每两年数据量就会翻一番。而这些数据约80%是非结构化或半结构化类型的。PART 03 大数据的产生与作用大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。大数据的产生人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,人
4、类社会的数据产生方式大致经历了3 个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。01运营式系统阶段03感知式系统阶段02用户原创内容阶段3个阶段大数据的产生01 运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大多为运营系统所采用,作为运营系统的数据管理子系统。人类社会数据量第一次大的飞跃是建立在运营式系统开始广泛使用数据库开始的。这个阶段最主要特点是数据往往伴随着一定的运营活动而产生并记录在数据库中的,这种数据的产生方式是被动的。大数据的产生02 用户原创内容阶段:互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web 2.0 时
5、代,而Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增长,主要有两个方面的原因。首先是以博客、微博、和微信为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。大数据的产生03 感知式系统阶段:人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将
6、这些设备广泛的布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产生方式是自动的。大数据的产生数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。大数据的作用具体来讲,大数据有如下的作用:对大数据的处理分析正成为新一代信息技术融合应用的结点。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到应用中(社交网络、物联网等),将创造出巨大的经济和社会价值,大数据具有催生社会变革的能量。第一大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产
7、品、新服务、新业态会不断涌现。第二大数据的作用大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变“数据驱动”。第三大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。第四PART 04 大数据时代的十大变化大数据时代的到来改变了人们的生活方式、思维模式和研究范式,我们可以总结出10个重大变化。大数据时代的十大变化 OldNew研究范式第三范式第四范式数据重要性数据资源数据资产方法论基于知识基于数据数据分析统计学
8、数据科学计算智能复杂算法简单算法管理目标业务数据化数据业务化决策方式目标驱动数据驱动产业竞合关系以战略为中心以数据为中心对数据复杂性的认识不接受复杂性接受复杂性数据处理模式小众参与大众协同对研究范式的新认识n对研究范式的新认识:从第三范式到第四范式2007年1月,图灵奖获得主、关系型数据库鼻祖Jim Gray发表了演讲:第四范式:数据密集型科学发现提出了科学研究的第四范式数据密集型科学发现。第三范式是指20世纪中期以来的计算科学阶段的“计算科学范式”。面对大量过于复杂的现象,归纳法和演绎法都难以满足科学研究的需求,人类开始借助计算机的高级运算能力对复杂现象进行建模和预测,比如天气、地震、核试验
9、、原子的运动等。然而,随着近年来人类采集数据量的爆炸性增长,传统的计算科学范式已经越来越无力驾驭海量的科研数据了。正因如此,目前正在从“计算科学范式”转向“数据密集型科学发现范式”。对研究范式的新认识n对研究范式的新认识:从第三范式到第四范式第四范式的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。例如,在大数据时代,天文学家的研究方式发生了新的变化-其主要研究任务变为从海量数据库中发现所需的物体或现象的照片,而不再需要亲自进行太空拍照。对数据重要性的新认识n对数据重要性的新认识:从数据资源到数据资产在大数据时代,数据不仅是一种“资源”,而更是
10、一种重要的“资产”。因此,数据科学应把数据当做“一种资产来管理”,而不能仅仅当做“资源”来对待。也就是说,与其他类型的资产相似,数据也具有财务价值,且需要作为独立实体进行组织与管理。大数据资产的价值的衡量尺度主要有以下三个方面的标准:1.独立拥有及控制数据资产2.计量规则与货币资本类似3.具有资本一般的增值属性对数据重要性的新认识n对数据重要性的新认识:从数据资源到数据资产总的来说,作为信息时代核心的价值载体,大数据必然具有朝向价值本体转化的趋势,而它的“资产化”,或者未来更进一步的“资本化”蜕变,将为未来完全信息化、泛互联网化的商业模式打下基础。对方法论的新认识n对方法论的新认识:从基于知识
11、到基于数据传统的问题解决思路是“问题知识问题”,即根据问题找“知识”,并用“知识”解决“问题”。然而,数据科学中兴起了另一种方法论-“问题数据问题”,即根据问题找“数据”,并直接用数据(不需要把“数据”转换成“知识”的前提下)解决问题,如图所示。对方法论的新认识n对方法论的新认识:从基于知识到基于数据对数据分析的新认识n对数据分析的新认识:从统计学到数据科学在传统科学中,数据分析主要以数学和统计学为直接理论工具。但是,云计算等计算模式的出现以及大数据时代的到来,提升了我们对数据的获取、存储、计算与管理能力,进而对统计学理论与方法产生了深远影响。大数据带给我们的三个颠覆性观念转变:1.不是随机样
12、本,而是全体数据。2.不是精确性,而是混杂性。3.不是因果关系,而是相关关系。对计算智能的新认识n对计算智能的新认识:从复杂算法到简单算法“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”。只要对大数据的进行简单查询就可以达到“基于复杂算法的智能计算的效果”。对数据管理重点的新认识n对数据管理重点的新认识:从业务数据化到数据业务化在传统数据管理中企业更加关注的是业务的数据化问题,即如何将业务活动以数据方式记录下来,以便进行业务审计、分析与挖掘。在大数据时代,企业需要重视一个新的课题:数据业务化,即如何“基于数据
13、”动态地定义、优化和重组业务及其流程,进而提升业务的敏捷性,降低风险和成本。业务数据化是前提,而数据业务化是目标。对决策方式的新认识n对决策方式的新认识:从目标驱动型到数据驱动型在传统科学思维中,决策制定往往是“目标”或“模型”驱动的,也就是,根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。改变企业传统凭感觉的方式。而更好的方式应该是靠数据来驱动。比如,一个产品的界面,到底是绿色背景好还是蓝色背景好,从设计的层面考虑,是都有可能的。那么就可以做一下 A/B 测试。可以让 50%的人显示绿色背景,50%的人显示
14、蓝色背景,然后看用户点击量。哪个点击比较多,就选择哪个。这就是数据驱动,这样就转变成不是凭感觉,而是通过数据去决策。对竞合关系的新认识n从以战略为中心到以数据为中心在大数据时代,企业之间的竞合关系发生了变化,原本相互激烈竞争,甚至不愿合作的企业,不得不开始合作,形成新的业态和产业链。传统的竞合关系是以战略为中心,在大数据时代,竞合关系是以数据为中心。竞合关系,即在竞争中合作,在合作中竞争。数据复杂性的新认识n数据复杂性的新认识:从不接受到接受数据的复杂性在传统科学看来,数据需要彻底“净化”和“集成”,计算目的是需要找出“精确答案”,而其背后的哲学是“不接受数据的复杂性”。然而,大数据中更加强调
15、的是数据的动态性、异构性和跨域等复杂性弹性计算、鲁棒性、虚拟化和快速响应,开始把“复杂性”当作数据的一个固有特征来对待,组织数据生态系统的管理目标转向将组织处于混沌边缘状态。对数据处理模式的新认识n对数据处理模式的新认识:从小众参与到大众协同传统科学中,数据的分析和挖掘都是具有很高专业素养的“企业核心员工”的事情,企业管理的重要目的是如何激励和绩效考核这些“核心员工”。但是,在大数据时代,基于“核心员工”的创新工作成本和风险越来越大,而基于“专家余(Pro-Am)”的大规模协作日益受到重视,正成为解决数据规模与形式化之间矛盾的重要手段大数据关键技术涵盖从数据存储、处理、应用等多方面的技术,根据
16、大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘等、大数据展示等环节。PART 05 大数据技术概述大数据处理的基本流程大数据关键技术涵盖从数据存储、处理、应用等多方面的技术。n 大数据处理的基本流程 数据采集 数据抽取与集成 数据分析及挖掘 数据解释大数据处理的基本流程数据抽取与集成大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。因此,要处理大数据,必须对所需的数据进行抽取和集成。在这个过程中,需要提取数据的实体和关系,经过关联和聚类之后,采用统一的结构来存储这些数据。还需要对数据进行清洗,保证数据质量及可信性。还要注意大
17、数据时代数据模式和数据的关系,大数据时代的数据往往是先有数据再有模式,并且模式是在不断的动态演化之中。大数据处理的基本流程数据抽取与集成数据抽取和集成技术并不是一项全新的技术,在传统数据库领域此问题就已经得到了比较成熟的研究。现有的数据抽取与集成方式可以大致分为以下四种类型:基于物化或ETL方法的引擎(Materialization or ETL Engine)基于联邦数据库或中间件方法的引擎(Federation Engine or Mediator)基于数据流方法的引擎(Stream Engine)基于搜索引擎的方法(Search Engine)大数据处理的基本流程数据分析数据分析是整个大
18、数据处理流程的核心,因为大数据的价值就产生于分析过程。数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。大数据时代的数据分析技术面临着一些新的挑战,主要有:1、数据量大并不一定意味着数据价值的增加 2、大数据时代的算法需要进行调整。3、数据结果的衡量标准。大数据处理的基本流程数据解释数据分析是大数据处理的核心,但是用户往往更关心结果的展示,即数据解释。提升大数据解释能力可从如下两个方面考虑:1、引入可视化技术通过对分析结果的可视化用形象的方式向用户展示结果,而且图形化的方式比文字更易理解和接受。常见的可视化技术有标签云(Tag Cloud
19、)、历史流(History Flow)、空间信息流(Spatial Information Flow)等。2、让用户能够在一定程度上了解和参与具体的分析过程大数据关键技术大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理技术。根据大数据的处理过程,可将其分为:大数据采集 大数据预处理 大数据存储及管理 大数据分析及挖掘 大数据展示大数据关键技术大数据采集技术数据来源多种多样、数据量大、产生速度快,所以针对不同数据源,数据采集方法也不同。采集方法,主要分为四类 数据库采集 系统日志采集 网络数据采集 感知设备数据采集大数据关
展开阅读全文