大数据时代概述.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据时代概述.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 概述 课件
- 资源描述:
-
1、大大 数数 据据 时时 代代生活、工作与思维的生活、工作与思维的大变革大变革作者作者 作者:【英】维可托作者:【英】维可托.迈尔迈尔-舍恩伯舍恩伯格格 肯尼斯肯尼斯.库克耶库克耶译者:周涛译者:周涛维克托维克托迈尔迈尔-舍恩伯格(舍恩伯格(Viktor Mayer-Schnberger),被誉为),被誉为“大数据时代的预言家大数据时代的预言家”,也,也是最受人尊敬的权威发言人之一。现任牛津大学网络是最受人尊敬的权威发言人之一。现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,新加坡国立学肯尼迪学院信息
2、监管科研项目负责人,新加坡国立大学信息政策研究中心主任。一百多篇论文公开发表大学信息政策研究中心主任。一百多篇论文公开发表在科学自然等著名学术期刊上。在科学自然等著名学术期刊上。备受众多世界知名企业、机构和国家政府高层信备受众多世界知名企业、机构和国家政府高层信赖的信息权威与智囊。他的咨询客户包括微软、惠普赖的信息权威与智囊。他的咨询客户包括微软、惠普和和IBM等全球顶级企业;他是欧盟互联网官方政策背等全球顶级企业;他是欧盟互联网官方政策背后真正的制定者与参与者,也是世界经济论坛、马歇后真正的制定者与参与者,也是世界经济论坛、马歇尔计划基金会等重要机构的咨询顾问;还先后担任新尔计划基金会等重要
3、机构的咨询顾问;还先后担任新加坡商务部高层、文莱国防部高层、科威特商务部高加坡商务部高层、文莱国防部高层、科威特商务部高层、迪拜及中东政府高层的咨询顾问。他所著的删层、迪拜及中东政府高层的咨询顾问。他所著的删除一书,获得美国政治科学协会颁发的除一书,获得美国政治科学协会颁发的“唐唐K普赖普赖斯奖斯奖”,以及媒介环境学会颁发的,以及媒介环境学会颁发的“马歇尔马歇尔麦克卢汉麦克卢汉奖奖”。肯尼斯肯尼斯库克耶(库克耶(Kenneth Cukier),经济学),经济学人数据编辑,曾任职于华尔街日报(亚洲版)人数据编辑,曾任职于华尔街日报(亚洲版)和国际先驱论坛报。他是美国外交关系协会成员,和国际先驱论
4、坛报。他是美国外交关系协会成员,CNN、BBC和和NPR的定期商业和技术评论员之一。的定期商业和技术评论员之一。Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.目 录引 言第一部分:大数据时代的思维变革第二部分:大数据时代的商业变革第三部分:大数据时代的管理变革结 语引 言一场生活、工作与思维的大变革 大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大
5、数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发大数据,变革公共卫生大数据,变革商业大数据,变革思维大数据,开启重大的时代转型预测,大数据的核心大数据,大挑战大数据大数据何为大?何为大?数据度量数据度量1Byte = 8 Bit1KB = 1,024 Bytes1MB = 1,024 KB = 1,048,576 Bytes1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,02
6、4 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes大数据大数据红楼梦含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes1GB 约等于671部红楼梦1TB 约等于631,903 部1PB
7、约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB )1EB = 4000倍美国国会图书馆存储的信息量一天之间,互联网上要发生多少事一天之间,互联网上要发生多少事每天有29402940亿亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年两年时间处理;每天有200200万万篇博客在网上发布,这些文章相当于时代杂志刊发770770年年的总量;每天有2.52.5亿亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有8080个个埃菲尔铁塔埃菲尔铁塔那么高;每天有86.486.4万小时万小时视频被上传至视频网站Youtu
8、be,相当于不间断播放视频9898年年;每天有1.871.87亿个小时亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一一台电脑从公台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放元元年就开始播放这些音乐会,到现在还没完没了地接着放;谷歌翻译每天处理的文字数量,每天翻译次数达十亿次十亿次,相当于一百万册图书一百万册图书,超过了全世界的专业翻译人员一年一年能够翻译的文字规模;百度每天的关键词搜索量5050亿亿,谷歌33.333.3亿亿;淘宝天猫双11那一天营业额达571571亿人民币亿人民币。中国小商品城全年成交额才580.03580.03亿元亿元人民币人民币;累积起来,
9、互联网一天之内产生的信息总量,可以装满1.681.68亿张亿张DVDDVD光盘。未来:物联网每天产生的数据将会是海量的。GBTBPBEBZB地球上至今总共的数据量地球上至今总共的数据量:在2006 2006 年,个人用户才刚刚迈进TBTB时代,全球一共新产生了约180EB180EB的数据;在2011 2011 年,这个数字达到了1.8ZB1.8ZB。而有市场研究机构预测:到2020 2020 年,整个世界的数据总量将会增长44 44 倍,达到35.2ZB35.2ZB(1ZB=10 1ZB=10 亿TBTB)!)!1PB = 250字节1EB = 260字节1ZB = 270字节大数据时代的爆炸
10、增长大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。大数据 = 海量数据 + 复杂类型的数据大数据包括:交易数据和交互数据集在内的所有数据集大数据的构成大数据的构成海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件
11、、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。1. VolumeVolume2. VarietyVariety3. value4. VelocityVelocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,对处理能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“
12、提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合什么是什么是Big DataBig Data数据量巨大全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量大数据大数据变革公共卫生变革公共卫生2009年H1N1流行病毒背景下谷歌通过检测检索词条,处理了4.5亿个不同的数据模型,通过预测并与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,确定了
13、45条检索词条组合,并将其用于一个特定的数学模型后,预测的结果与官方数据的相关系数高达97%。按照传统的信息返回流程,通告新流感病毒病例将有一到两周的延迟。对于飞速传播的疾病,信息滞后两周是致命的。而谷歌运用大数据技术,以前所未有的方式,通过海量数据分析得出流感所传播的范围,为世界预测流感提供了一种更快捷的预测工具。预测,是大数据的核心,准确的预测是最大的竞争力预测,是大数据的核心,准确的预测是最大的竞争力大数据带来大挑战!大数据带来大挑战!让数据来说话让数据来说话一切专家的经验只是来源于判断和估一切专家的经验只是来源于判断和估算,而大数据分析是精算算,而大数据分析是精算.一、大数据时代的思维
14、变革一、大数据时代的思维变革更多“更多”不是随机样本,而是全体数据 当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本总体”。让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本总体一、大数据时代的思维变革更杂“更杂”不是精确性,而是混杂性 执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。允许不精确大数据的简单算法比小数据的复杂算法更有效纷
15、繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生 无所不包的谷歌翻译系统无所不包的谷歌翻译系统IBM在名为 Candide 的项目上花费了大概十年的时间,将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。翻译的标准非常高,投入资金也很多,但取得的成效不大,最终被迫停止了该项目。 而谷歌翻译利用更大更杂的数据库(上万亿的语料库),也就是全球的互联网。它吸收了它能找到的所有翻译,还会去寻找联合国等国际组织发布的译本。尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。大数据的简单算法比小数据的复杂算法更有效。大数据的简
16、单算法比小数据的复杂算法更有效。一、大数据时代的思维变革更好“更好”不是因果关系,而是相关关系 知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法 相关关系的核心是量化两个数据值之间的数理关系。 相关关系强是指当一个数据值增加时,另一个数据值很有可能也会增加。 相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化沃尔玛,请把蛋挞与飓风用品摆在一起沃尔玛,请把蛋挞与飓风用品摆在一起2004年,沃尔玛对历史交易记录这个庞大的
17、数据库进行了观察,这个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日天气等。沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销量增加了,而且POP-Tarts蛋挞的销量也增加了。因此当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。关联物,预测的关键关联物,预测的关键美国折扣零售商塔吉特与怀孕预测美国折扣零售商塔吉特与怀孕预测塔吉特公司在完全不和准妈妈对话的前提下成功的预测了一个女性会在什么时候怀孕。公司分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录,登记簿上的妇女会在怀孕大概第三
18、个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的。美国折扣零售商塔吉特与怀孕预测美国折扣零售商塔吉特与怀孕预测杜西格在习惯的力量一书中讲到了接下来发生的事情。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男
展开阅读全文