理解大数据讲解课件.ppt

上传人（卖家）：晟晟文业

文档编号：5157565

上传时间：2023-02-15

格式：PPT

页数：49

大小：8.26MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《理解大数据讲解课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 理解数据讲解课件

资源描述：: 1、大数据BIG DATA一、大数据的背景一、大数据背景信息自由之战数据爆炸数据帝国数据治国信息自由之战美国信息之于民主，就如货币之于经济。托马斯杰斐逊，第三任美国总统美国三权分立三权组织机构宪法立法行政司法国会参议院众议院总统副总统总统下属机构行政部门法院联邦最高法院州最高法院基层法院第四股力量（Fourth Estate）新闻和报纸新闻自由、言论自由、知情权1948年，美国报纸编辑协会成立“世界信息自由委员会”约翰摩斯信息自由法（担任美国国会议员25年，六朝元老、连选连任）1955年摩斯着手信息自由的立法工作以来，一系列列的法律层层叠加，不断完善，美国的信息自由最终形成了一个体系，这
2、个体系也成了世界上许多国家制定信息自由法的模板，截止2006年，已有60多个国家实施了类似的法案。信息自由法（Freedom of Information Act简称FOIA，也译作情报自由法）主要内容是规定民众在获得行政情报方面的权利和行政机关在向民众提供行政情报方面的义务：第一、联邦政府的记录和档案原则上向所有的人开放，但是有九类政府情报可免于公开；第二、公民可向任何一级政府机构提出查阅、索取复印件的申请；第三、政府机构则必须公布本部门的建制和本部门各级组织受理情报咨询、查找的程序、方法和项目，并提供信息分类索引；第四、公民在查询情报的要求被拒绝后，可以向司法部门提起诉讼，并应得到法院的优
3、先处理。这项法律还规定了行政、司法部门处理有关申请和诉讼的时效。奥巴马政府政府的态度：大国新政阳光是最好的防腐剂，建立一个透明开放的政府。政府的行动：透明和开放的政府放松对总统文件的管制（公众可查阅）公开、发布信息政府的思想：依靠数据说话政府领导人：奥巴马热爱高新科技支持技术创新数据帝国 what:什么是数据？什么是数据？where:数据是从哪来的？数据是从哪来的？how:应对数据爆炸该如何做？应对数据爆炸该如何做？什么是数据？数据是对信息数字化的记录，其本身并无意义，把数据放置到一定的背景下，对数字进行解释、赋予意义，则为信息。例如：“1.85”是一个数据“奥巴马身高1.85米”是一条
4、信息数据的储存单位单位单位英语标识英语标识大小大小例子例子位Bit1或0一个二进制数位：0或1字节Byte8Bit一个英文字母：8Bit千字节KB1024Byte一页纸上的文字：5KB兆字节MB1024KB一首普通MP3的歌曲：4MB吉字节GB1024MB一部电影：1GB太字节TB1024GB美国国会图书馆所有登记印刷版书本的消息:15TB2011年底，其网络备份的数据量为280太字节拍子节PB1024TB美国邮政局一年处理的信件大约为5拍谷歌每小时处理的数据为1拍艾字节EB1024EB相当与13亿中国人人手一本500页的书加起来泽字节ZB1024ZB截止2010年，人类拥有的信息总量大概是1
5、.2ZB尧字节YB1024YB超出想象2009年美国各行业数据存储量（拍字节）（1998年，联邦政府共拥有432所数据中心，专门负责各类数据的存储和维护工作。2010年，数据中心的总数跃升到2094所，翻了几倍）最小数据集Minimum Data Set 帝国的数据到底从何而来？海量的数据源头在哪里?美国联邦政府的数据来源，当然首先缘于它各个部门的业务工作，也就是业务数据。大规模、系统地收集数据，在美国联邦历发展史上，有一个重要的里程碑最小数据集定义：最小数据集是指通过收集最少的数据，最好地掌握一个研究对象所具有的特点或一件事情，一份工作所处的状态，其核心是针对被观察的对象建立一套精简实用的数
6、据指标。传感器数据种类数据种类收集对象收集对象收集方法收集方法里程碑里程碑业务数据下级部门和各类社会组织以基层上报被动接受为主1973年卫生部引进最小数据集民意数据各个公民或组织投入人力财力主动收集1940年罗斯福引进民意调查环境数据自然环境、动植物、物体以传感器自动采集1962年的海浪监计划政府应对数据爆炸颁布的法案：信息自由法可以公开数据阳光政府法必须公开数据电子信息自由法计算机数据公开数据源大数据大小超出传统意义上的尺度，一般的软件工具已经难以捕捉、存储、管理和分析的数据。没有统一的定义。大数据的特点：大知识、大科学、大利润、大发展。数据治国每一个机构和部门都要制定一个应对大数
7、据的战略“数据驱动的管理方法Data-Drivern Management用数据决策、管理、创新。数据和信息是执法工作当中制定战略和决策的基础循数管理三部曲：收集、分析、发布数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争专门为联邦政府建立的一个统一的数据开放的门户网站，全面开放政府拥有的公共数据主要目的：1.把政府推向前所未有的开放高度，巩固国家民主，2.提高政府的效率和效能。3
8、.通过鼓励创新，上数据走出政府，得到更多的创新运用。Data.gov上线同一天，美国阳光基金会宣布设立25000美元的奖金，举办程序员公共数据开放大赛。参赛作品必须使用Data.gov开放的数据，可以是数据的分析程序，可以是数据可视化的应用，还可以是社交网站和智能手机的查件。Data.Gov初次上线只开放了47组数据，但三个月内，阳光基金会却收到了47个新的开发应用程序。大量的“互动”使Data.gov的功能不断完善，先后加入了数据的分级评定、高级搜索、用户交流以及和社交网站互动等等新的功能。2009年12月8日开放政府的指令命令各个联邦部门必须在45天之内，在Data.gov上至少开放3项高
9、价值数据。DATA AND TOOLS候机经济学：航班延误分析系统 FlyOnTime.us用户可以看到不同天气，不同日期，不同时段、不同航空公司、不同航班等各种条件下的飞机是否准时以及平均延误时间的数据明细。数据混搭器DataMasherData.Gov成果截止2011年12月，仅仅在Data.gov上，就汇集了1140个应用程序和软件工具、85个手机应用查件，其中，有近300个是由民间的程序员、公益组织等社会力量自发开发的。2010年，Data.Gov开放的数据总数达到了27万项，2011年12月，共开放原始数据3721项，地理数据386429项。开放数据时一石三鸟，不仅服务了大众，刺激
10、经济，还调动了大众创新，为政府节省了软件开发的开支。三、业界发展动态商务智能大趋势云计算商务智能指利用数据仓库、数据挖掘技术对客户数商务智能指利用数据仓库、数据挖掘技术对客户数据进行系统地储存和管理，并通过各种数据统计分析据进行系统地储存和管理，并通过各种数据统计分析工具对客户数据进行分析，提供各种分析报告，如客工具对客户数据进行分析，提供各种分析报告，如客户价值评价、客户满意度评价、服务质量评价、营销户价值评价、客户满意度评价、服务质量评价、营销效果评价、未来市场需求等，为企业的各种经营活动效果评价、未来市场需求等，为企业的各种经营活动提供决策信息。提供决策信息。商务智能数据仓库 D
11、ata Warehouse数据仓库的诞生：轨迹的起点，计算机通过二进制，解决了数据的传送问题。关系数据库，解决了数据的快速组织、存储和读取1.累积了大量的数据（仅仅查询，没有分析）2.决策支持系统与运营信息系统分离3.为了解决数据集成问题，数据仓库诞生4.以数据分析、决策支持位目的来组织储存数据数据可视化Data Visualization数据可视化是指以图形、图像、地图、动画等更为生动、易为理解的方式来展现数据的大小，诠释数据之间的关系和发展的趋势，以期更好地理解、使用数据分析的结果。二组12345678910X210.08.013.09.011.014.06.04.012.07.0Y29.
12、148.148.748.779.268.106.133.109.137.26安斯科姆四重奏一组12345678910X110.08.013.09.011.014.06.04.012.07.0Y18.046.957.588.818.339.967.244.2610.844.82三组12345678910X310.08.013.09.011.014.06.04.012.07.0Y37.466.7712.747.117.818.846.085.398.156.42四组12345678910X48.08.08.08.08.08.08.08.08.08.0Y46.585.767.718.848.477.
13、045.2512.505.567.91X1=X2=X3,X4=8X1,X2,X3和X4的平均值等于9，其方差等于10,Y1,Y2,Y3和Y4的平均值等于7.50，其方差等于3.754组数据都符合线性回归：y=3+0.5x也就是说：4组数据中，X和Y之间的关系是相同的。个别数据偏离可以视为随机产生的干扰。当我们用散点图标识后，面对图形，就会发现统计学当我们用散点图标识后，面对图形，就会发现统计学“欺骗欺骗”了我们了我们有一天，就像用公用电话一样，计算的能力会被组织起来，成为一种公共资源和公共事业，这种公共资源和事业，会成为一个新的、重要的产业。“云”的概念来源于电话通讯行业。20世纪，电话已经普
14、及成为一种公共事业，通过公共电话，两点之间可以实现通讯。但如果想在两个用户之间建立一条专用的、私密的通讯渠道，必须架设新的物理专线。后来，一种被称为“虚拟专用网络（VPN）”的技术出现了，他可以通过公共网络随时为两个用户建立专线网络。这种可以为个人提供专用服务，并可以招之即来，挥之即去的网络服务，我们称之为“云”服务。把计算的能力放在互联网上，所以的硬件计算能力，存储能力和软件的执行能力，全部都有网络提供，网络就是你的计算力。云的供应商将计算能力作为一种资源，集中在一起，然后再通过网络，配送给有需要的客户。2010年后，云计算已经形成了一个从应用软件、操作系统到硬件的一个完整的产业链。开始大
15、规模的商业应用。2010年，奥巴马聘请81名专家，成立了“云”委会，帮助政府普及“云知识”，制定“云”策略，推动“云”部署。客户无需购买相应的软件和硬件就能享受到大公司才能具有的软硬件能力。把有形的产品变成了无形的服务，计算能力成了一种可以传送的服务。这种通过网络将计算能力组织起来的做法，可以实现经济学意义上的“规模化”和“专业化”，意味着巨大的利润空间。再造互联网从网页相连到数据相“联”Web 1.0以网站为标志的信息传播共享Web 1.0Web 2.0以社交媒体为顶峰的信息交流和协同Web 3.0以语义网为基础的数据智能网络四、底层技术简介分布式计算（HADOOP）机器学习（人工神经网络
16、）数据挖掘（聚类算法）HadoopWhat Is Apache Hadoop?The Apache Hadoop project develops open-source software for reliable,scalable,distributed computing.The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple program
17、ming models.It is designed to scale up from single servers to thousands of machines,each offering local computation and storage.Rather than rely on hardware to deliver high-availability,the library itself is designed to detect and handle failures at the application layer,so delivering a highly-avail
18、able service on top of a cluster of computers,each of which may be prone to failures.The project includes these modules:Hadoop Common:The common utilities that support the other Hadoop modules.Hadoop Distributed File System(HDFS):A distributed file system that provides high-throughput access to appl
19、ication data.Hadoop YARN:A framework for job scheduling and cluster resource management.Hadoop MapReduce:A YARN-based system for parallel processing of large data sets.Hadoop特性用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。高效性。Ha
20、doop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C+。机器学习技术机器学习(Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使
21、计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。机器学习在人工智能的研究中具有十分重要的地位。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统，但是以往的智能系统都普遍缺少学习的能力。例如，它们遇到错误时不能自我校正；不会通过经验改善自身的性能；不会自动获取和发现所需要的知识。它们的推理仅限于演绎而缺少归纳，因此至多只能够证明已存在事实、定理，而不能发现新的定理、定律和规则等。随着人工智能的深入发展，这些局限性表现得愈加突出。正是在这种情形下，机器学习逐渐成为人工智能研究的核心之一。它的应用已遍及人工智能的各个分支，如专家系统、自动推理、自然语
22、言理解、模式识别、计算机视觉、智能机器人等领域。其中尤其典型的是专家系统中的知识获取瓶颈问题，人们一直在努力试图采用机器学习的方法加以克服。研究领域目前，机器学习领域的研究工作主要围绕以下三个方面进行：（1）面向任务的研究研究和分析改进一组预定任务的执行性能的学习系统。（2）认知模型研究人类学习过程并进行计算机模拟。（3）理论分析从理论上探索各种可能的学习方法和独立于应用领域的算法机器学习是继专家系统之后人工智能应用的又一重要研究领域，也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统没有什么学习能力，至多也只有非常有限的学习能力，因而不能满足科技和生产提出的新要求
23、。对机器学习的讨论和机器学习研究的进展，必将促使人工智能和整个科学技术的进一步发展。人工神经网络（ANN）人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）和之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能
24、是对一种逻辑策略的表达。基于JAVA的开源ANN框架JOONE(Java Object Oriented Neural Network)是sourceforge上一个用java语言迅速开发神经网络的开源项目。JOONE支持很多的特性，比如多线程和分布式计算，这意味着可以JOONE可以利用多处理器或是多计算机来均衡附载。数据挖掘之聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这
25、些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不
26、同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法
27、）的预处理步骤。支持向量机(SVM）一种聚类分析的理论支持向量机是由Vapnik领导的AT&TBell实验室研究小组在1995年提出的一种新的非常有潜力的分类技术，SVM是一种基于统计学习理论的模式识别方法，主要应用于模式识别领域。由于当时这些研究尚不十分完善，在解决模式识别问题中往往趋于保守，且数学上比较艰涩，这些研究一直没有得到充分的重视。直到90年代，统计学习理论(Statistical Learning Theory，SLT)的实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难，比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等，使得SVM迅速发展和完善，在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。从此迅速的发展起来，现在已经在许多领域(生物信息学，文本和手写识别等)都取得了成功的应用。LibSVM:一个开源的SVM实现右图为LibSVM的demo

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：理解大数据讲解课件.ppt
链接地址：https://www.163wenku.com/p-5157565.html

晟晟文业

内容提供者

实名认证

联系作者