书签 分享 收藏 举报 版权申诉 / 71
上传文档赚钱

类型大数据概论教材课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5218630
  • 上传时间:2023-02-17
  • 格式:PPT
  • 页数:71
  • 大小:12.03MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据概论教材课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 概论 教材 课件
    资源描述:

    1、Main Contents什么是大数据大数据的前世、今生大数据产生的背景大数据的国内外现状大数据技术概述大数据的价值所在大数据(Big Data),是一个泛概念,其实,“大数据”归根结底还是数据,其是一种泛化的数据描述形式,有别于以往对于数据信息的表达,大数据更多地倾向于表达网络用户信息、新闻信息、银行数据信息、社交媒体上的数据信息、购物网站上的用户数据信息等。大数据的“大”体现在数据信息是海量信息,且在动态变化和不断增长。What is Big Data?20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data2011年5 月,在“云计算相遇大数据”为主题的EMC Wo

    2、rld 2011 会议中,EMC 抛出了Big Data概念大数据的“大”体现在如下几个方面:体量(Volume):互联网的飞速发展,导致非结构化数据高速增长和超大规模,占到数据总量的80%-90%之多,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。多样性(Variety):大数据是异构的、且多样性的。诸多不同的表现形式:文本、图形图像、视频、机器数据等;无模式或者模式不明显;不连贯的语法或语义。价值密度(Value):大量的不相关信息;对未来趋势和模式的可预测分析;深度的复杂分析;速度(Velocity):实时分析而非批量式分析;立竿见影而非事后见效。大数据之大数据之“大

    3、大”大数据所涉及的数据量,有些是之前并不存在,有些是之前已经存在,只是没有被收集和分析。大数据的数据信息主要是互联网上的数据信息,其具有巨“大”的商业价值,通过数据分析等手段,这些之前不被重视的数据信息能够揭示其它手段所看不到的隐含知识和新趋势,例如,网购中可预测需求、供给和顾客习惯等,做到精准采购、精准投放。大数据之大数据之“数据数据”大数据的大数据的“精准营销精准营销”消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象TB级以上的数据处理;B,KB,MB,GB,TB,PB,EB,ZB,JB比“大”更棘手的数据的复杂性。虽然如此之大,有时候甚至大数据中的小数据如一条微博就具有颠覆性的价

    4、值。合适的方法寻找有价值的信息!大数据不仅仅大数据不仅仅“大大”Google每天要处理超过24PB的数据;Facebook每天更新的照片超过1000万张;YouTube每月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传;Twitter上的信息量几乎每年翻一倍,截至2012年,每天都会发布超过4亿条微博;大数据的前世 科学数据分析 数据挖掘 数据仓库 传统电子商务数据分析等。大数据的今生 微博数据信息分析 网络购物数据信息分析 手机用户使用信息分析(移动设备数据)传感器数据分析大数据的前世、今生大数据的前世、今生互联网企业:SNS、微博、视频网站、电子商务网站物联网、移动设

    5、备、终端中的商品、个人位置、传感器采集的数据联通、移动、电信等通信和互联网运营商天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据数据的爆发式增长和社会化趋势,新摩尔定律;大数据已经成为一种自然资源,是一座丰富的矿藏;机器数据日益重要;大数据不被利用就是成本,矿藏就会被埋没,失去其潜在的价值;大数据产生的背景大数据产生的背景大数据产生的背景大数据产生的背景现有的商业软件难以处理大数据的规模和复杂性。获取(capture)存贮(storage)搜索(search)分享(sharing)分析(analysis)可视化(visualization)大数据产生的背景大数据产生的背景商业上的需求是

    6、主要驱动力!商业需求驱动变身国家战略(美国国家战略)促进进一步发展。互联网的社会化是大数据产生的直接推动力!利益驱动才是促进终极发展的核心原因!大数据产生的背景大数据产生的背景大数据的国内外现状大数据的国内外现状互联网越来越智慧互联网越来越智慧1 1 并购进行技术整合2 2 自身提高研发实力相较于“大数据”一词在 2011 年才开始蹿红不同,在计算机研究领域和产业界,“大数据”早已众人皆知,各大IT 巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点各大IT 企业纷纷推出自身的大数据分析产品,包括Google、IBM、EMC、Oracle、微软、惠普、SAP、T

    7、eradata,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势Google:从搜索到广告公司:从搜索到广告公司聪明的聪明的GOOGLE其实是互联网公司其实是互联网公司+广告公司广告公司+美国政府的情报员美国政府的情报员Google:1998起家:网络零售;发展:通过云平台提供低成本的数据存储服务;现在&未来:大数据分析;亚马逊:从云平台到大数据亚马逊:从云平台到大数据印象:商用机、笔记本电脑、服务器;发展:剥离盈利微弱的笔记本电脑业务给联想,重点收购了多家数据库公司、数据分析公司、大数据公司,着力打造数据分析业务

    8、,顺道卖服务器;现在&未来:数据分析服务。IBM:数据分析之道:数据分析之道美国国务院采用大数据技术开发新的美美国国务院采用大数据技术开发新的美国护照系统。国护照系统。IBM宣布投资宣布投资1亿美元用于大数据研究;亿美元用于大数据研究;美国美国IT公司开始意识到大数据技术能够公司开始意识到大数据技术能够为公司创造价值;为公司创造价值;大数据公司引入汽车行业高管人员扩展大数据公司引入汽车行业高管人员扩展营销业务;营销业务;起家:QQ即时通讯软件,波折中发展,通过集成游戏度过了极为艰难的三年,此后,伴随着中国互联网的告诉发展,进入了黄金十年。发展:黄金十年发展期,集即时通讯、门户、娱乐、广告、网游

    9、于一体,拥有所谓的五亿以上的用户群体。现在&未来:基于移动互联网的微信告诉发展。用户为王+数据为王,两者皆占,独霸中国市场,目前来暂无可匹敌。需要解决如此大规模的用户数据如何变成¥。国内:腾讯国内:腾讯起家:搜索引擎,经历过“战国时期”的乱战,以“更懂中国、更懂中国用户”迅速发展。发展:即使在Google没有撤离之前,也占据70%以上的中国搜索引擎市场;百度知道,让Baidu更加被“知道”,成为在线教科书和解决方案。百度文库让其笼络了大量的文本资源。现在&未来:错过了移动互联网的入口。用户依旧很多,通过大数据分析做精准广告投放,依旧在走Google的路。国内:国内:Baidu起家:电子商务平台

    10、(中间商);发展:淘宝为代表的网上零售业务迅猛发展,带动物流、现金流飞速发展。现在&未来:整合现金流,余额宝。大数据分析了解用户行为和习惯,进行精准广告投放和营销。国内:阿里巴巴国内:阿里巴巴&淘宝系淘宝系个人电脑及存储设备增长较多;云平台的安全保障问题;云平台的隐私保护问题;云平台的服务提供问题;用户习惯免费、带来的自然是免费服务提供商同时获得了用户的各种信息。这类企业拥有庞大的用户群,如腾讯和阿里巴巴为大数据分析储备的足够的数据基础。文化差异致云端使用步履蹒跚文化差异致云端使用步履蹒跚大数据与云计算大数据与云计算大数据与云计算大数据与云计算大数据与云计算大数据与云计算用户只需要一台具备基本

    11、计算能力的计算设备以及一个有效的互联网连接,就可以随时随地使用该服务随时随地用户具备使用该服务的需求,但是并不具备独立提供该服务的经济或者技术条件低成本云计算平台提供计算能力(包括处理器、内存、存储、网络接口),但是并不关心用户的应用类型按需供应把计算能力像水和电一样提供给用户按量计费白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!大数据的价值所在大数据的价值所在有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、

    12、大利润、大发展麻烦 个人隐私,信息安全,各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上PB的数据,真麻烦!挑战 传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!机遇 在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!大数据的价值所在大数据的价值所在2010年12月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了规划数据未来的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。“如何收集、保存、维护、管理

    13、、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战。应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”2012年3月29日,奥巴马政府又进一步推进了其“大数据战略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将投入2亿多美元立即启动“大数据发展研究计划”Big Data Research and Development Initiative,以推动大数据的提取、存储、分析、共享和可视化。美国政府推出

    14、了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据。案例1:塔吉特,比父亲更早知道女儿怀孕 曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。数据信息记录;(基础信息)构建数据模型;(经验总结、预测模型)建立与用户的沟通渠道;(智慧营销)大数据的价值所在大数据的价值所在大数据分析价值:根据Andrew Pole的大数据模型,Target连锁制订了全新的广

    15、告营销方案,结果Target的孕期用品销售呈现了爆炸性的增长。Andrew Pole的大数据分析技术从孕妇这个细分顾客群开始向其他各种细分客户群推广,从Andrew Pole加入Target的2002年到2010年间,Target的销售额从440亿美元增长到了670亿美元。案例2:通过大数据分析降低罪案率;纽约的犯罪凶杀从1994年1561起下降到1177起;车辆盗窃从95420下降到72679起;到2009年,凶杀案下降到466起;大数据的价值所在大数据的价值所在案例案例3 3:阿里巴巴成功预测金融危机;:阿里巴巴成功预测金融危机;马马云对未来的预测,是建立在对用户行文分析云对未来的预测,是

    16、建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下案例中,询盘数据的下降,自然导致买盘的下降。降。大数据的价值

    17、所在大数据的价值所在腾讯在天津投资建立亚洲最大的数据中心;腾讯在天津投资建立亚洲最大的数据中心;新浪推出企业微博产品,提供精准的数据分析服务。新浪推出企业微博产品,提供精准的数据分析服务。在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。么被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术SAP中国区企业信息 管理咨询资深顾问 杜韬Hadoop数据应用策略、数据流技术机器学习算法百度首席科学家 威廉.张Hadoop数据采集、数据存储、数据处理Yaho

    18、o!北京全球软件研发中心架构师 韩轶平持续创新传统的企业级数据仓库产品线收购Aster DataHadoop、MapReduceTeradata首席客户官 周俊凌马云的判断来自于数据分析马云的判断来自于数据分析双双“十一十一”背后的技背后的技术讨论术讨论在全球经济的很多领域,大数据在以很多的方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大的浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。大数据:下一个创新、竞争和生产率的前沿 麦肯锡全球研究所 2011年5月在对全球 100 个国家及地区从

    19、事 30 个行业的 3000 名高管进行的调查中,有60%的受访者表示无法有效利用所有数据。而近期 IBM 对 64 个国家及地区从事 19 个行业的 1700 名首席营销官开展的最新调查更是进一步体现了出这个问题的严峻性:调查结果显示,71%的首席营销官表示他们的企业没有做好充分准备来应对大数据的挑战。IBM-麻省理工斯隆管理学院评论 2011年大数据不是一个单独的市场,它无处不在,以一切可以想象出的方式影响着商业。大数据的涌入将迫使产品、业务和解决方案发生变化。这种变化非常快,企业可能不得不淘汰要求的现有解决方案。2012年大数据将直接或间接拉动全球960亿美元IT支出,预计这一数据201

    20、3年将达到1200亿美元,2016年达到2320亿美元。新支出将流向社交媒体、社交网络分析和内容分析。支持大数据需要使用大量服务,高达软件采购支出的20倍。拥有相应技能的人才非常稀缺,但需求旺盛。Gartner 2012年10月2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。1962年,经过“圣灰星期三”风暴后,美国陆军工程部和美国国家海洋与大气管理局共同建设了一个传感器监测系统,对兴风作浪的海洋进行监测。2005年,浮标上安装了更高端的传感器,用来

    21、监测海浪方向。2009年,系统再次升级,开始着手建立一个覆盖全美海岸线的精确海浪监测网络。这些传感器以分秒为单位,将数据源源不断实时传回。还记得后天里面那个场景?驾驭大数据能够改变什么?传感器、智慧地球驾驭大数据能够改变什么?情感分析、舆情分析通过对BBS、博客、微博中内容的分析,政府、企业和个人可以了解当前舆论情况,公众对待某一事物的看法。目前围绕这个产业,催生了一大拨的创新公司。通过分析15万条关于刘翔的微博,分词并析取出其中使用的字词。在分析中,可以发现,为刘翔呐喊助威的声音占了统治地位,然而也有微博用户激烈地批评刘翔。这是我们第一次能对如此数量的中国用户进行数据可视化和情感分析在所有关

    22、于刘翔的微博中出现的最显著的名词和形容词。结点越大表明越多人使用过这个词。两个结点离得越近表明它们一起出现在同一用户微博中的频率越高。在构造出的这个图中,可以非常明显地发现刘翔支持者所用的词语(右下)以及批评者所有的词语(左上)的巨大区别。驾驭大数据能够改变什么?语言、文字分析奥巴马和罗姆尼辩论情况分析。驾驭大数据能够改变什么?社会化网络分析分析在社交网络上谈论的情况以及分享的购物情况,来发现失业率变化情况和经济发展状况。驾驭大数据能够改变什么?社交网络分析、微博营销电信行业、传媒业借助社交网络分析,对客户的通话数据、微博连接进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通

    23、话记录和微博信息,而是分析各用户所处的社交网络。圈子识别 关键成员识别 传播影响分析 重入网用户识别 双机双卡用户识别 六度空间理论 关系强度分析驾驭大数据能够改变什么?客户特征与交叉销售以及更多今年年初,美国一名男子闯入了他家附近的 Target 店铺(Target 是一家美国零售连锁超市)。“你们怎么能这样!”男人向店铺经理大吼到,“你们竟然给我 17 岁的女儿发婴儿尿片和童车的优惠券,她才 17 岁啊!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为 Target 发来的婴儿用品促

    24、销广告并不是误发,他的女儿的确怀孕了。纽约时报报道更多:反恐(万维信息触角计划与建言计划),库存管理(沃尔玛的Retail Link)、卖数据!大数据驱动市场营销、驱动成本控制、驱动产品和服务创新、驱动管理和决策的创新、驱动商业模式的创新。驾驭大数据能够改变什么?算法交易、欺诈检测 欺诈检测:监控信用卡使用,当检测的信用卡在很短的时间内并且相距甚远的位置已连续被使用,检测到欺诈行为,拒绝卡的使用 算法交易:及时发现存在的交易机会,每次一小笔,毫秒级交易,每天进行数量众多的交易。已经成为趋势金融交易是最能体现大数据的Velocity特性的,机会稍纵即逝,甚至券商对连接到交易主机的网线长度都有至关

    25、重要的诉求。算法交易成为趋势,但也导致了一次小型的股灾。奥巴马连任的机密“大数据”制胜的四大法宝数字竞选团队我们会在此次竞选活动中对每个事件进行数据分析。”团队聘请了一大批分析员,人数规模甚至达到了2008年竞选时数据分析部门的五倍(据了解大概100多人)整合信息资源奥巴马竞选团队的一位官员表示:“我们知道,民主党的问题就在于拥有了大多的数据库,且没有哪两个数据库是相同的”。因此,在总统竞选前的18个月,竞选团队就创建了一个庞大系统,这一系统可以将民调者、注资者、工作人员、消费者、社交媒体以及“摇摆州”主要的民主党投票人的信息进行整合。竞选结果预测奥巴马的数据分析团队此前曾在关键州收集数据,并

    26、建立了4条投票数据流,用于拼凑出当地选民的详细数据模型。奥巴马的数据分析团队可以更清楚的了解每类人群和地区选民在任何时刻的投票倾向。开辟第二战场奥巴马竞选团队首次利用Facebook这些社交网络进行大规模的游说,就像此前挨家挨户敲门拉票的方式一样。数据还帮助奥巴马竞选团队更好的作出了广告购买的决策。在选择广告投放渠道时,他们没有依靠外部顾问,而是基于内部数据得出结论。未来可期许的价值:天文数据信息处理(每天PB级以上天文数据信息处理);网络舆情分析与监测(新闻、论坛、空间、微博等);用户行为分析(银行、网银、信用卡、网络购物、微博营销等);传感器监测分析(环境监测、农业监测等);移动设备数据分

    27、析(位置服务等);大数据的价值所在大数据的价值所在大数据所涵盖的技术汇总大数据之数据存储大数据之数据管理大数据之数据建模大数据之软件大数据之可视化大数据技术概述大数据技术概述关系数据库技术传统的数据库管理系统(SQL SERVER,Oracle,Mysql等);大数据相关的数据库技术及软件(Amazon SimpleDB,Google App Engine,Hbase,Oracle NoSQL,Google Bigtable);大数据分析技术及分析模型(算法研究及分析建模);大数据分析软件(Hadoop MapReduce)大数据所涵盖的技术汇总大数据所涵盖的技术汇总基于基于SQL语言语言:面

    28、对OLAP的传统行和列不基于不基于SQL或或map-reduce的的:由谷歌率先由谷歌率先发起发起数据流数据流:基于运行商数据直接生成任意图形新平台技术新平台技术数据入数据入口口/汇聚汇聚数据平台数据平台分析分析不同范围的服务不同范围的服务前提:前提:传统交付模式-单片或基于设备的解决方案云云:能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-Forrester analyst Jim Kobielus新的传输方案新的传输方案并行数据处理结构化数据表分布式文件系统 分布式锁Google的分布式文件系统GFS,其对应的开源

    29、Hadoop分布式文件系统HDFS。Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。大数据之数据存储大数据

    30、之数据存储Hadoop,包括HDFS和其上的MR,被认为是解决大数据中必不可少的一项技术和产品。它能轻易实现各种批量数据处理,而且因为其设计的简化,能轻易分布到海量的X86服务器上,2000、3000节点的Hadoop场景是较为常见的。优点 处理各种结构的数据 灵活的处理方式,通过Java编写MR框架 易于扩展、伸缩,达到3000节点以上(因其非对等节点模型设计)缺点(对原生解决方案而言)对灵活的查询的支持和响应速度 流水线操作优化 Map和Reduce大量数据交换问题案例:淘宝、支付宝、腾讯产品:BC-ETL/OC-ETL/SmartMiner储备:两期云计算ETL在经分中应用研究,目前在开

    31、展四省试点高并发读写大数据存储的核心需求大数据存储的核心需求高效率存储 和访问高可扩展性和高可用性低成本建设运维l 保证一致性的开销过大,难以实现高并发l 存储性能受限于控制器,性能难以保证l 关系型表单存储难以适应不同数据类型l 上亿行数据的超级达标效率极低l 传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高l 许可和维护花费高昂l 无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展l 数据库升级需要停机维护和数据迁移,导致服务中断l 不保证遵循ACID原则,提高并发读写性能l Schema-Free存储适应不同数据类型l舍弃SQL标准功能

    32、,尽量简化数据操作,提升效率lMapReduce实现高效访问l 基于X86设备,价格低廉l开源系统,节省许可费用l 支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力l数据库升级不影响服务持续Google的分布式结构化数据表Bigtable,对应开源的分布式结构化数据表Hbase。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(Fil

    33、e System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。大数据之数据管理大数据之数据管理大数据分析的核心是数据建模或者说是分析算法。传统的数据挖掘算法需要转变为针对大数据的挖掘算法。大数据之数据建模大数据之数据建模大数据之数据建模大数据之数据建模和数据中心(Data Center)一样,软件是大数据的驱动力,软件改变世界。大数据之软件大数据之软件TRS SMAS功能

    34、框架图信息挖掘信息来源新闻论坛博客搜索引擎微博wiki自动排重、自动分类、自动摘要、自动分析关联图谱动态走势兴趣图谱未知探索热点变化意见领袖传播图谱关系分类外网微博论坛SNS网媒 官网提高销量用户满意度用户设计趋势分析竞争分析质量缺陷设计缺陷使用缺陷KOL维护声誉管理危机预警事件评估行为分析产品公关营销SMAS用户感知研发情绪感知及时服务口碑监测媒介监测S-CRM广义服务大数据之可视化大数据之可视化What should we do?知识要求:数据挖掘(算法)+数据仓库(工具)Linux操作系统+Hadoop开源体系 大数据采集+大数据存储+大数据管理 大数据分析算法+大数据分析结果可视化落脚点:新闻挖掘与分析;微博、社交平台数据挖掘(网络舆情、用户习惯);电信数据分析;图像分析与处理;See you next time!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据概论教材课件.ppt
    链接地址:https://www.163wenku.com/p-5218630.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库