大数据与云数据管理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据与云数据管理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 数据管理 课件
- 资源描述:
-
1、第第9章章 大数据与云数据管理大数据与云数据管理 大数据大数据 云计算云计算 云数据管理云数据管理 有关大数据的两个问题有关大数据的两个问题 问题问题1:你知道什么是:你知道什么是“大数据大数据”吗?吗?如果你不知道,那么你很可能如果你不知道,那么你很可能OUT了!了!问题问题2:你听说过:你听说过“大数据大数据”吗?吗?如果你连如果你连“大数据大数据”听都没听过,那么你听都没听过,那么你绝对绝对OUT了!了!你认识这位老兄吗?你认识这位老兄吗?如果你连这位老兄都不认识,那你也太如果你连这位老兄都不认识,那你也太OUT了!了!斯诺登事件带给我们的最大震动是什么?斯诺登事件带给我们的最大震动是什
2、么?不在于他暴露了美国政府正在监听全世界这件不在于他暴露了美国政府正在监听全世界这件事情。因为,这早已是公开的秘密,对事情。因为,这早已是公开的秘密,对“世界世界警察警察”而言,这没有什么值得大惊小怪的而言,这没有什么值得大惊小怪的!而在于他使我们了解到美国政府已经具备了获而在于他使我们了解到美国政府已经具备了获取、存储、管理、分析和使用取、存储、管理、分析和使用“大数据大数据”的超的超强能力。这使美国政府获得了相对他国政府更强能力。这使美国政府获得了相对他国政府更明显的优势!明显的优势!大数据为大数据为“世界警察世界警察”的的“大拳头大拳头”装上了装上了“大眼睛大眼睛”、“大耳朵大耳朵”和和
3、“大脑袋大脑袋”!目前目前IT领域最引人关注的三个热词是什么?领域最引人关注的三个热词是什么?大数据大数据 云计算云计算 物联网物联网 其他:移动互联网,社交网,其他:移动互联网,社交网,XXX2.0/3.0/什么是大数据?什么是大数据?来源:来源:2008年年9月月科学科学(Science)杂志发杂志发表了一篇文章表了一篇文章“Big Data:Science in the Petabyte Era”,从此从此“大数据大数据”这个词开这个词开始被广泛传播。始被广泛传播。什么是大数据?什么是大数据?没有统一定义,因为没有统一定义,因为“大大”是一个相对是一个相对“小小”而言概念。而言概念。与大
4、数据与大数据(Big Data)相类似的词汇:相类似的词汇:Large Scale 大规模大规模,Very Large 超大规模超大规模,Massive 海量海量什么是大数据?什么是大数据?从历史发展的视角看这几个从历史发展的视角看这几个词:词:Very Large表示表示GB级别的数据级别的数据Massive表示表示TB级的数据级的数据Big Data表示表示PB级别及其以上级别及其以上的数据的数据 显然,争论它们中哪一个更显然,争论它们中哪一个更大没有什么意义。大没有什么意义。什么是大数据?什么是大数据?一个普遍接受的定义一个普遍接受的定义大数据是指无法在可容忍的时间内用传统方大数据是指无
5、法在可容忍的时间内用传统方法或工具对其进行抓取、管理和处理的数据法或工具对其进行抓取、管理和处理的数据集合。集合。数据集组成非常巨大和复杂,以至于传统数数据集组成非常巨大和复杂,以至于传统数据库管理工具处理起来面临很多问题。据库管理工具处理起来面临很多问题。获取、存储、检索、共享、分析和可视化。获取、存储、检索、共享、分析和可视化。数据量达到数据量达到PB、EB或或ZB级别。级别。难道这就是大数据?难道这就是大数据?难道这就是大数据?难道这就是大数据?大数据产生的背景 数据量 3个月翻一番 通信速度 6个月翻一番 存储容量 9个月翻一番 集成电路 18个月翻一番 现在网络环境下每18个月产生的
6、数据量相当于过去几千年的数据量之和 数据之多,数据量之大,前所未有大数据有多大?大数据有多大?以互联网为例以互联网为例 Facebook截止2012年4月,每日评论已达32亿条;每天新上传照片近3亿张。每周新增图片容量约60TB,图片总量约2600亿张,已超过20PB。平均每秒3500次写操作,读操作的峰值可以达到每秒百万次。Amazon目前目前EC2有约有约450000台服务器台服务器(存储存储+处理处理)。大数据有多大?大数据有多大?多,实在是多!多,实在是多!繁,实在是繁!繁,实在是繁!大,实在是大!大,实在是大!No data like more data!数据永远也不嫌多!数据永远也
7、不嫌多!大数据从何而来?大数据从何而来?机器机器 存储存储软件、系统文件、基础数据软件、系统文件、基础数据元数据元数据(如索引如索引)冗余、备份冗余、备份 处理处理原始数据的自动加工:原始数据的自动加工:压缩、聚类、规则适用、可视化、智能衍生压缩、聚类、规则适用、可视化、智能衍生 传播传播负载迁移、分布式共享负载迁移、分布式共享(如如P2P)大数据从何而来?大数据从何而来?人人 内容提供商内容提供商新闻报道、时事评论、广告宣传新闻报道、时事评论、广告宣传音频、视频、微视频音频、视频、微视频 职业撰稿人职业撰稿人网络作家、写手、推手、水军网络作家、写手、推手、水军 普通大众普通大众博文、图片、音
8、乐、视频博文、图片、音乐、视频 SNS网络传播网络传播评论、转发评论、转发大数据从何而来?大数据从何而来?物理世界物理世界 无所不在的感知数据无所不在的感知数据 传感节点传感节点(压力、温度、湿度、声光电压力、温度、湿度、声光电)无线宽频信号采样、太湖蓝藻检测、无线宽频信号采样、太湖蓝藻检测、PM 2.5 视频监控视频监控目前目前1路路720P高清视频摄像数据每小时视频录像高清视频摄像数据每小时视频录像3GB左右。按一左右。按一个月保存时间要求计算,个月保存时间要求计算,3GB/小时小时24小时小时30天天1路路=2.16T。一个拥有。一个拥有500路高清视频摄像,需要保存路高清视频摄像,需要
9、保存1个月的监控系统所需个月的监控系统所需的最少存储容量是的最少存储容量是1PB。对地观测对地观测资源三号卫星在运行前两个月的时间内,产生资源三号卫星在运行前两个月的时间内,产生37TB的原始影像的原始影像数据。这是后续互联网地图的基础。数据。这是后续互联网地图的基础。天文物理、气象、医学等专业领域数据天文物理、气象、医学等专业领域数据大数据向何而去?大数据向何而去?服务服务如果不能提供服务,大数据就没有意义。如果不能提供服务,大数据就没有意义。面向人、机、物的服务面向人、机、物的服务物理世界:需要足够的采样数据物理世界:需要足够的采样数据机器:需要数据具有关联度,能够从中分析出有用信机器:需
10、要数据具有关联度,能够从中分析出有用信息,非结构化息,非结构化半结构化半结构化结构化结构化人:能够直接使用数据的表现形式,进行生产和决策人:能够直接使用数据的表现形式,进行生产和决策大数据为什么重要?大数据为什么重要?2012年年3月月29日,奥巴马政府宣布投资日,奥巴马政府宣布投资2亿亿美元启动美元启动“大数据研究和发展计划大数据研究和发展计划”,美国,美国政府已把政府已把“大数据大数据”上升到了国家战略的层上升到了国家战略的层面。面。中国政府和业界对中国政府和业界对“大数据大数据”高度重视并高度重视并在大力推进。据报道,今年两会上已有委员在大力推进。据报道,今年两会上已有委员提出将大数据列
11、入国家发展战略。提出将大数据列入国家发展战略。20大数据的特征大数据的特征1电子商务电子商务科学计算科学计算网络生活网络生活每月交易21亿笔,产生300TB交易日志信息 7亿用户、400亿张照片,总容量超过1500TB新墨西哥州的天文望远镜每年产生80TB的图像信息美国国会图书馆存档信息量:约美国国会图书馆存档信息量:约 80TB生物信息生物信息第一个中国人的全基因组图谱,1177亿碱基对21大数据的特征大数据的特征2许多数据是人造出来的!许多数据是人造出来的!例子:北京至纽约的客机有千余个传感器例子:北京至纽约的客机有千余个传感器,一次飞机记录的数据达数百,一次飞机记录的数据达数百T T至至
12、P P级。级。22大数据的特征大数据的特征3非结构化非结构化=没有找到共性特征没有找到共性特征多层结构多层结构大数据的构成大数据的构成大数据的大数据的4V特性特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿
13、见影而非事后见效Volume 数据量数据量PB是大数据层次的临界点是大数据层次的临界点.KB-MB-GB-TB-PB-EB-ZB-YB-NB-DBValue 价值价值 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.价值密度低价值密度低,是大数据的一个典型特征是大数据的一个典型特征.Variety 多样性多样性 企业内部的经营交易信息,物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源。能够在不同的数据类型中,进行交叉分析的技术,是大数能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。据的核心技术之一。语义分析技术,图文转换技
14、术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用。Velocity 速度速度 1s 是临界点。对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的。实时处理的要求实时处理的要求,是区别大数据引用和传统数据仓是区别大数据引用和传统数据仓库技术、库技术、BI技术的关键差别之一技术的关键差别之一。脸谱脸谱(Facebook)(Facebook)数据中心数据中心微软微软(Microsoft)(Microsoft)数据中心数据中心苹果苹果(Apple)(Apple)数据中心数据中心谷歌谷歌(Google)(Google)数据中心数据中心数据中心数据中心看上去,规模庞大看
15、上去,规模庞大4大数据管理的基础大数据管理的基础数据中心数据中心30数据中心数据中心走进去,结构复杂走进去,结构复杂4大数据管理的基础大数据管理的基础数据中心数据中心数据库与大数据数据库与大数据GB/TB级高质量、较干净强结构化Top-down重交易确定解数据库数据库vs大数据大数据*传统数据库传统数据库/数据仓库数据仓库PB级以上有噪声、有冗余非结构化Bottom-up重交互满意解大数据大数据“大数据”是数据增长从量变到质变的里程碑 从人的认知角度来看,在数据量比较小的情况下,我们基于典型的数从人的认知角度来看,在数据量比较小的情况下,我们基于典型的数据去思考。据去思考。例如,我们可以设计一
16、个数据模型来管理目前没遇到但以后可能遇到例如,我们可以设计一个数据模型来管理目前没遇到但以后可能遇到的数据,或者设计一个精妙的算法正确高效地处理将来可能遇到的数的数据,或者设计一个精妙的算法正确高效地处理将来可能遇到的数据和各种情况。据和各种情况。而大数据则颠覆了这一假定,目前的数据量已足够大,足以包罗万象而大数据则颠覆了这一假定,目前的数据量已足够大,足以包罗万象,充分利用现有数据得出的全面而简约的数据模型和算法足以应对我,充分利用现有数据得出的全面而简约的数据模型和算法足以应对我们可能遇到的各种情况。们可能遇到的各种情况。换言之,数据模型与算法设计的首要任务不再是人基于少量数据的思换言之,
17、数据模型与算法设计的首要任务不再是人基于少量数据的思考,而是机器基于海量数据的分析归类。考,而是机器基于海量数据的分析归类。从基于猜测假定的设计到基于事实和经验的归纳总结,是人类认知过从基于猜测假定的设计到基于事实和经验的归纳总结,是人类认知过程的进步。程的进步。这是一个革命性的进展,是大数据之所以激动人心的根本。这是一个革命性的进展,是大数据之所以激动人心的根本。大数据不仅仅是“大”多大?PB 级比大大更重要的是数据的复杂性数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值大数据的应用不仅仅是精准营销 通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是
18、公共服务领域具有广阔的应用前景消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象软件是驱动大数据的引擎 和数据中心和数据中心(Data Center)一样,软件是大一样,软件是大数据的驱动力。数据的驱动力。软件改变世界!软件改变世界!大数据生态:软件是引擎前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户
19、的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。互联网越来越智能互联网越来越智能Google精确掌握用户行为、获取需求精确掌握用户行为、获取需求微博为新浪带来巨大价值微博为新浪带来巨大价值马云的判断来自于数据分析马云的判断来自于数据分析“2008年初年初,阿里阿里巴巴平台上巴巴平台上整个整个买买家家询盘数急剧下滑询盘数急剧下滑,欧美对中国采购欧美对中国采购在下滑。海关是卖在下滑。海关是卖了货了货,出去以后再出去以后再获得数据获得数据;而我们而我们提前
20、半年时间从询提前半年时间从询盘上推断出世界贸盘上推断出世界贸易发生变化了易发生变化了。”马云对未来的预测,是建立在对用户行文分析的基础上。马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。更高一层数据层面整合企
21、业内外部更高数据层面整合利用用户”行为指纹”创造新商机用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。大数据应用中的陷阱大数据应用中的陷阱邦弗朗尼原理邦弗朗尼原理(Bonferronis Principle)邦弗朗尼原理邦弗朗尼原理:在数据随机性假设的基础上,计算所寻找的事件的发生的期望值,如果该期望值大于找到的真实事
22、件的数目,则所找到的事件很可能是一种假象假象。即随着数据规模数据规模的不断增加,任何数据都会显现出一些不同寻常的特征,这些特征看上去似乎非常重要,但实际上却并不重要。42整体情报预警的故事整体情报预警的故事 设有一群恐怖分子会偶尔在酒店聚会策划恐设有一群恐怖分子会偶尔在酒店聚会策划恐怖阴谋。怖阴谋。想找出那些同一天在同一个酒店至少出现两想找出那些同一天在同一个酒店至少出现两次的人群。次的人群。43假设假设 被监控的人数:10亿(109)被监控的天数:1000 days 每个人去酒店的概率 1%(1000天里住10天酒店)有 10万(105)家酒店,每家酒店可容纳100 人 每个人行为都是随机的
23、。通过数据挖掘能发现可疑行为吗?44Calculations (1)人员 p 和人员 q 同一天在同一个酒店出现的概率:1/100 1/100 10-5=10-9.人员p 和 q 在d1 和 d2 出现在同一个酒店的概率:10-9 10-9=10-18.1000天任意两天的排列组合:5105.p atsomehotelq atsomehotelSamehotel45Calculations (2)人员 p 和 q 在任意两天出现在同一个酒店的概率:5105 10-18=510-13.可能的人数是10亿,任意两个人的排列组合是:51017.平均可疑的人员对的数目:51017 510-13=250
24、,000.实际上他们是纯随机导致的巧合46结论结论 假设真的有假设真的有10 对恐怖分子在同一个酒店出对恐怖分子在同一个酒店出现两次现两次 那么需要扫描那么需要扫描250,010 对候选人才能找出这对候选人才能找出这10对恐怖分子对恐怖分子这个方法好吗?这个方法好吗?“大数据大数据”是不能乱用的!是不能乱用的!大数据与云数据管理大数据与云数据管理 大数据大数据 云计算云计算 云数据管理云数据管理 云计算(Cloud Computing),2007年第3季度才诞生的新名词,仅过了半年多,其受到关注程度就超过网格计算(Grid Computing),而且关注度至今一直居高不下 云计算是一种商业计算
25、模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。云计算到底是什么?云计算有什么特点?云计算起源和发展1961年斯坦福教授年斯坦福教授John McCarthy 提出计算资源可以提出计算资源可以成为一种重要的新型工业基础。类似水、电、气和成为一种重要的新型工业基础。类似水、电、气和通信。通信。1999年年Salesforce成立,成立,2001年发布在线年发布在线CRM系统系统2001年年Google CEO Eric Schmidt 在搜索引擎大会上首在搜索引擎大会上首次提出次提出”Cloud Computing“概念。概念。2003
展开阅读全文