理解大数据讲解课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《理解大数据讲解课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 理解 数据 讲解 课件
- 资源描述:
-
1、大数据BIG DATA一、大数据的背景一、大数据背景 信息自由之战 数据爆炸 数据帝国 数据治国信息自由之战美国信息之于民主,就如货币之于经济。托马斯杰斐逊,第三任美国总统美国三权分立三权组织机构宪法立法行政司法国会参议院众议院总统副总统总统下属机构行政部门法院联邦最高法院州最高法院基层法院第四股力量(Fourth Estate)新闻和报纸 新闻自由、言论自由、知情权1948年,美国报纸编辑协会成立“世界信息自由委员会”约翰摩斯信息自由法(担任美国国会议员25年,六朝元老、连选连任)1955年摩斯着手信息自由的立法工作以来,一系列列的法律层层叠加,不断完善,美国的信息自由最终形成了一个体系,这
2、个体系也成了世界上许多国家制定信息自由法的模板,截止2006年,已有60多个国家实施了类似的法案。信息自由法(Freedom of Information Act简称FOIA,也译作情报自由法)主要内容是规定民众在获得行政情报方面的权利和行政机关在向民众提供行政情报方面的义务:第一、联邦政府的记录和档案原则上向所有的人开放,但是有九类政府情报可免于公开;第二、公民可向任何一级政府机构提出查阅、索取复印件的申请;第三、政府机构则必须公布本部门的建制和本部门各级组织受理情报咨询、查找的程序、方法和项目,并提供信息分类索引;第四、公民在查询情报的要求被拒绝后,可以向司法部门提起诉讼,并应得到法院的优
3、先处理。这项法律还规定了行政、司法部门处理有关申请和诉讼的时效。奥巴马政府政府的态度:大国新政阳光是最好的防腐剂,建立一个透明开放 的政府。政府的行动:透明和开放的政府 放松对总统文件的管制(公众可查阅)公开、发布信息政府的思想:依靠数据说话政府领导人:奥巴马热爱高新科技 支持技术创新数据帝国 what:什么是数据?什么是数据?where:数据是从哪来的?数据是从哪来的?how:应对数据爆炸该如何做?应对数据爆炸该如何做?什么是数据?数据是对信息数字化的记录,其本身并无意义,把数据放置到一定的背景下,对数字进行解释、赋予意义,则为信息。例如:“1.85”是一个数据“奥巴马身高1.85米”是一条
4、信息数据的储存单位单位单位英语标识英语标识大小大小例子例子位Bit1或0一个二进制数位:0或1字节Byte8Bit一个英文字母:8Bit千字节KB1024Byte一页纸上的文字:5KB兆字节MB1024KB一首普通MP3的歌曲:4MB吉字节GB1024MB一部电影:1GB太字节TB1024GB美国国会图书馆所有登记印刷版书本的消息:15TB2011年底,其网络备份的数据量为280太字节拍子节PB1024TB美国邮政局一年处理的信件大约为5拍谷歌每小时处理的数据为1拍艾字节EB1024EB相当与13亿中国人人手一本500页的书加起来泽字节ZB1024ZB截止2010年,人类拥有的信息总量大概是1
5、.2ZB尧字节YB1024YB超出想象2009年美国各行业数据存储量(拍字节)(1998年,联邦政府共拥有432所数据中心,专门负责各类数据的存储和维护工作。2010年,数据中心的总数跃升到2094所,翻了几倍)最小数据集Minimum Data Set 帝国的数据到底从何而来?海量的数据源头在哪里?美国联邦政府的数据来源,当然首先缘于它各个部门的业务工作,也就是业务数据。大规模、系统地收集数据,在美国联邦历发展史上,有一个重要的里程碑最小数据集定义:最小数据集是指通过收集最少的数据,最好地掌握一个研究对象所具有的特点或一件事情,一份工作所处的状态,其核心是针对被观察的对象建立一套精简实用的数
6、据指标。传感器数据种类数据种类收集对象收集对象收集方法收集方法里程碑里程碑业务数据下级部门和各类社会组织以基层上报被动接受为主1973年卫生部引进最小数据集民意数据各个公民或组织投入人力财力主动收集1940年罗斯福引进民意调查环境数据自然环境、动植物、物体以传感器自动采集1962年的海浪监计划政府应对数据爆炸颁布的法案:信息自由法可以公开数据 阳光政府法必须公开数据 电子信息自由法计算机数据公开数据源大数据 大小超出传统意义上的尺度,一般的 软件工具已经难以捕捉、存储、管理 和分析的数据。没有统一的定义。大数据的特点:大知识、大科学、大利润、大发展。数据治国每一个机构和部门都要制定一个应对大数
7、据的战略“数据驱动的管理方法Data-Drivern Management用数据决策、管理、创新。数据和信息是执法工作当中制定战略和决策的基础循数管理三部曲:收集、分析、发布数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争专门为联邦政府建立的一个统一的数据开放的门户网站,全面开放政府拥有的公共数据主要目的:1.把政府推向前所未有的开放高度,巩固国家民主,2.提高政府的效率和效能。3
8、.通过鼓励创新,上数据走出政府,得到更多的创新运用。Data.gov上线同一天,美国阳光基金会宣布设立25000美元的奖金,举办程序员公共数据开放大赛。参赛作品必须使用Data.gov开放的数据,可以是数据的分析程序,可以是数据可视化的应用,还可以是社交网站和智能手机的查件。Data.Gov初次上线只开放了47组数据,但三个月内,阳光基金会却收到了47个新的开发应用程序。大量的“互动”使Data.gov的功能不断完善,先后加入了数据的分级评定、高级搜索、用户交流以及和社交网站互动等等新的功能。2009年12月8日开放政府的指令命令各个联邦部门必须在45天之内,在Data.gov上至少开放3项高
9、价值数据。DATA AND TOOLS候机经济学:航班延误分析系统 FlyOnTime.us用户可以看到不同天气,不同日期,不同时段、不同航空公司、不同航班等各种条件下的飞机是否准时以及平均延误时间的数据明细。数据混搭器DataMasherData.Gov成果 截止2011年12月,仅仅在Data.gov上,就汇集了1140个应用程序和软件工具、85个手机应用查件,其中,有近300个是由民间的程序员、公益组织等社会力量自发开发的。2010年,Data.Gov开放的数据总数达到了27万项,2011年12月,共开放原始数据3721项,地理数据386429项。开放数据时一石三鸟,不仅服务了大众,刺激
10、经济,还调动了大众创新,为政府节省了软件开发的开支。三、业界发展动态 商务智能 大趋势 云计算商务智能指利用数据仓库、数据挖掘技术对客户数商务智能指利用数据仓库、数据挖掘技术对客户数据进行系统地储存和管理,并通过各种数据统计分析据进行系统地储存和管理,并通过各种数据统计分析工具对客户数据进行分析,提供各种分析报告,如客工具对客户数据进行分析,提供各种分析报告,如客户价值评价、客户满意度评价、服务质量评价、营销户价值评价、客户满意度评价、服务质量评价、营销效果评价、未来市场需求等,为企业的各种经营活动效果评价、未来市场需求等,为企业的各种经营活动提供决策信息。提供决策信息。商务智能 数据仓库 D
11、ata Warehouse数据仓库的诞生:轨迹的起点,计算机通过二进制,解决了数据的传送问题。关系数据库,解决了数据的快速组织、存储和读取1.累积了大量的数据(仅仅查询,没有分析)2.决策支持系统与运营信息系统分离3.为了解决数据集成问题,数据仓库诞生4.以数据分析、决策支持位目的来组织储存数据数据可视化Data Visualization数据可视化是指以图形、图像、地图、动画等更为生动、易为理解的方式来展现数据的大小,诠释数据之间的关系和发展的趋势,以期更好地理解、使用数据分析的结果。二组12345678910X210.08.013.09.011.014.06.04.012.07.0Y29.
12、148.148.748.779.268.106.133.109.137.26安斯科姆四重奏一组12345678910X110.08.013.09.011.014.06.04.012.07.0Y18.046.957.588.818.339.967.244.2610.844.82三组12345678910X310.08.013.09.011.014.06.04.012.07.0Y37.466.7712.747.117.818.846.085.398.156.42四组12345678910X48.08.08.08.08.08.08.08.08.08.0Y46.585.767.718.848.477.
13、045.2512.505.567.91X1=X2=X3,X4=8X1,X2,X3和X4的平均值等于9,其方差等于10,Y1,Y2,Y3和Y4的平均值等于7.50,其方差等于3.754组数据都符合线性回归:y=3+0.5x也就是说:4组数据中,X和Y之间的关系是相同的。个别数据偏离可以视为随机产生的干扰。当我们用散点图标识后,面对图形,就会发现统计学当我们用散点图标识后,面对图形,就会发现统计学“欺骗欺骗”了我们了我们有一天,就像用公用电话一样,计算的能力会被组织起来,成为一种公共资源和公共事业,这种公共资源和事业,会成为一个新的、重要的产业。“云”的概念来源于电话通讯行业。20世纪,电话已经普
展开阅读全文