大数据概论教材课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据概论教材课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 概论 教材 课件
- 资源描述:
-
1、Main Contents什么是大数据大数据的前世、今生大数据产生的背景大数据的国内外现状大数据技术概述大数据的价值所在大数据(Big Data),是一个泛概念,其实,“大数据”归根结底还是数据,其是一种泛化的数据描述形式,有别于以往对于数据信息的表达,大数据更多地倾向于表达网络用户信息、新闻信息、银行数据信息、社交媒体上的数据信息、购物网站上的用户数据信息等。大数据的“大”体现在数据信息是海量信息,且在动态变化和不断增长。What is Big Data?20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data2011年5 月,在“云计算相遇大数据”为主题的EMC Wo
2、rld 2011 会议中,EMC 抛出了Big Data概念大数据的“大”体现在如下几个方面:体量(Volume):互联网的飞速发展,导致非结构化数据高速增长和超大规模,占到数据总量的80%-90%之多,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。多样性(Variety):大数据是异构的、且多样性的。诸多不同的表现形式:文本、图形图像、视频、机器数据等;无模式或者模式不明显;不连贯的语法或语义。价值密度(Value):大量的不相关信息;对未来趋势和模式的可预测分析;深度的复杂分析;速度(Velocity):实时分析而非批量式分析;立竿见影而非事后见效。大数据之大数据之“大
3、大”大数据所涉及的数据量,有些是之前并不存在,有些是之前已经存在,只是没有被收集和分析。大数据的数据信息主要是互联网上的数据信息,其具有巨“大”的商业价值,通过数据分析等手段,这些之前不被重视的数据信息能够揭示其它手段所看不到的隐含知识和新趋势,例如,网购中可预测需求、供给和顾客习惯等,做到精准采购、精准投放。大数据之大数据之“数据数据”大数据的大数据的“精准营销精准营销”消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象TB级以上的数据处理;B,KB,MB,GB,TB,PB,EB,ZB,JB比“大”更棘手的数据的复杂性。虽然如此之大,有时候甚至大数据中的小数据如一条微博就具有颠覆性的价
4、值。合适的方法寻找有价值的信息!大数据不仅仅大数据不仅仅“大大”Google每天要处理超过24PB的数据;Facebook每天更新的照片超过1000万张;YouTube每月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传;Twitter上的信息量几乎每年翻一倍,截至2012年,每天都会发布超过4亿条微博;大数据的前世 科学数据分析 数据挖掘 数据仓库 传统电子商务数据分析等。大数据的今生 微博数据信息分析 网络购物数据信息分析 手机用户使用信息分析(移动设备数据)传感器数据分析大数据的前世、今生大数据的前世、今生互联网企业:SNS、微博、视频网站、电子商务网站物联网、移动设
5、备、终端中的商品、个人位置、传感器采集的数据联通、移动、电信等通信和互联网运营商天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据数据的爆发式增长和社会化趋势,新摩尔定律;大数据已经成为一种自然资源,是一座丰富的矿藏;机器数据日益重要;大数据不被利用就是成本,矿藏就会被埋没,失去其潜在的价值;大数据产生的背景大数据产生的背景大数据产生的背景大数据产生的背景现有的商业软件难以处理大数据的规模和复杂性。获取(capture)存贮(storage)搜索(search)分享(sharing)分析(analysis)可视化(visualization)大数据产生的背景大数据产生的背景商业上的需求是
6、主要驱动力!商业需求驱动变身国家战略(美国国家战略)促进进一步发展。互联网的社会化是大数据产生的直接推动力!利益驱动才是促进终极发展的核心原因!大数据产生的背景大数据产生的背景大数据的国内外现状大数据的国内外现状互联网越来越智慧互联网越来越智慧1 1 并购进行技术整合2 2 自身提高研发实力相较于“大数据”一词在 2011 年才开始蹿红不同,在计算机研究领域和产业界,“大数据”早已众人皆知,各大IT 巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点各大IT 企业纷纷推出自身的大数据分析产品,包括Google、IBM、EMC、Oracle、微软、惠普、SAP、T
7、eradata,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势Google:从搜索到广告公司:从搜索到广告公司聪明的聪明的GOOGLE其实是互联网公司其实是互联网公司+广告公司广告公司+美国政府的情报员美国政府的情报员Google:1998起家:网络零售;发展:通过云平台提供低成本的数据存储服务;现在&未来:大数据分析;亚马逊:从云平台到大数据亚马逊:从云平台到大数据印象:商用机、笔记本电脑、服务器;发展:剥离盈利微弱的笔记本电脑业务给联想,重点收购了多家数据库公司、数据分析公司、大数据公司,着力打造数据分析业务
8、,顺道卖服务器;现在&未来:数据分析服务。IBM:数据分析之道:数据分析之道美国国务院采用大数据技术开发新的美美国国务院采用大数据技术开发新的美国护照系统。国护照系统。IBM宣布投资宣布投资1亿美元用于大数据研究;亿美元用于大数据研究;美国美国IT公司开始意识到大数据技术能够公司开始意识到大数据技术能够为公司创造价值;为公司创造价值;大数据公司引入汽车行业高管人员扩展大数据公司引入汽车行业高管人员扩展营销业务;营销业务;起家:QQ即时通讯软件,波折中发展,通过集成游戏度过了极为艰难的三年,此后,伴随着中国互联网的告诉发展,进入了黄金十年。发展:黄金十年发展期,集即时通讯、门户、娱乐、广告、网游
9、于一体,拥有所谓的五亿以上的用户群体。现在&未来:基于移动互联网的微信告诉发展。用户为王+数据为王,两者皆占,独霸中国市场,目前来暂无可匹敌。需要解决如此大规模的用户数据如何变成¥。国内:腾讯国内:腾讯起家:搜索引擎,经历过“战国时期”的乱战,以“更懂中国、更懂中国用户”迅速发展。发展:即使在Google没有撤离之前,也占据70%以上的中国搜索引擎市场;百度知道,让Baidu更加被“知道”,成为在线教科书和解决方案。百度文库让其笼络了大量的文本资源。现在&未来:错过了移动互联网的入口。用户依旧很多,通过大数据分析做精准广告投放,依旧在走Google的路。国内:国内:Baidu起家:电子商务平台
10、(中间商);发展:淘宝为代表的网上零售业务迅猛发展,带动物流、现金流飞速发展。现在&未来:整合现金流,余额宝。大数据分析了解用户行为和习惯,进行精准广告投放和营销。国内:阿里巴巴国内:阿里巴巴&淘宝系淘宝系个人电脑及存储设备增长较多;云平台的安全保障问题;云平台的隐私保护问题;云平台的服务提供问题;用户习惯免费、带来的自然是免费服务提供商同时获得了用户的各种信息。这类企业拥有庞大的用户群,如腾讯和阿里巴巴为大数据分析储备的足够的数据基础。文化差异致云端使用步履蹒跚文化差异致云端使用步履蹒跚大数据与云计算大数据与云计算大数据与云计算大数据与云计算大数据与云计算大数据与云计算用户只需要一台具备基本
11、计算能力的计算设备以及一个有效的互联网连接,就可以随时随地使用该服务随时随地用户具备使用该服务的需求,但是并不具备独立提供该服务的经济或者技术条件低成本云计算平台提供计算能力(包括处理器、内存、存储、网络接口),但是并不关心用户的应用类型按需供应把计算能力像水和电一样提供给用户按量计费白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!大数据的价值所在大数据的价值所在有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、
12、大利润、大发展麻烦 个人隐私,信息安全,各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上PB的数据,真麻烦!挑战 传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!机遇 在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!大数据的价值所在大数据的价值所在2010年12月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了规划数据未来的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。“如何收集、保存、维护、管理
13、、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战。应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”2012年3月29日,奥巴马政府又进一步推进了其“大数据战略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将投入2亿多美元立即启动“大数据发展研究计划”Big Data Research and Development Initiative,以推动大数据的提取、存储、分析、共享和可视化。美国政府推出
14、了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据。案例1:塔吉特,比父亲更早知道女儿怀孕 曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。数据信息记录;(基础信息)构建数据模型;(经验总结、预测模型)建立与用户的沟通渠道;(智慧营销)大数据的价值所在大数据的价值所在大数据分析价值:根据Andrew Pole的大数据模型,Target连锁制订了全新的广
15、告营销方案,结果Target的孕期用品销售呈现了爆炸性的增长。Andrew Pole的大数据分析技术从孕妇这个细分顾客群开始向其他各种细分客户群推广,从Andrew Pole加入Target的2002年到2010年间,Target的销售额从440亿美元增长到了670亿美元。案例2:通过大数据分析降低罪案率;纽约的犯罪凶杀从1994年1561起下降到1177起;车辆盗窃从95420下降到72679起;到2009年,凶杀案下降到466起;大数据的价值所在大数据的价值所在案例案例3 3:阿里巴巴成功预测金融危机;:阿里巴巴成功预测金融危机;马马云对未来的预测,是建立在对用户行文分析云对未来的预测,是
16、建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下案例中,询盘数据的下降,自然导致买盘的下降。降。大数据的价值
17、所在大数据的价值所在腾讯在天津投资建立亚洲最大的数据中心;腾讯在天津投资建立亚洲最大的数据中心;新浪推出企业微博产品,提供精准的数据分析服务。新浪推出企业微博产品,提供精准的数据分析服务。在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。么被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术SAP中国区企业信息 管理咨询资深顾问 杜韬Hadoop数据应用策略、数据流技术机器学习算法百度首席科学家 威廉.张Hadoop数据采集、数据存储、数据处理Yaho
展开阅读全文