大数据技术概论-(-177张)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据技术概论-(-177张)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 概论 177 课件
- 资源描述:
-
1、S大数据技术张博士2015年5月11/10/2022目 录S大数据技术概论 S云数据库技术S数据挖掘技术S商业智能11/10/2022Big Data名词由来20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data2011年5 月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念11/10/2022大数据的产生S21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。S互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、
2、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。11/10/2022数量级概念S1KB=2(10)B=1024B;S1MB=2(10)KB=1024KB=2(20)B;S1GB=2(10)MB=1024MB=2(30)B。S1TB=2(10)GB=1024GB=2(40)BS1PB=2(10)TB=1024TB=2(50)BS1EB=2(10)PB=1024PB=2(60)B11/10/2022数量级概念SKilobyte(KB)=1024B 相当于一则短篇故事的內容。SMegabyte(MB)=l024KB 相当于一則短篇小說的文字內容。SGiga
3、byte(GB)=1024MB 相当于贝多芬第五交响乐的演奏视频內容。STerabyte(TB)=1024GB 相当于一家大型医院中所有的X光照片信息。SPetabyte(PB)=l024TB 相当于50%的全美学术图书馆信息內容。SExabyte(EB)=1024PB;5EB相当于至今全世界人类所讲过的话语。11/10/2022信息通讯进入新时代11/10/2022摩尔定律11/10/2022后摩尔时代11/10/2022计算机演进11/10/2022信息计算体系演进11/10/2022软件技术网络化演进11/10/2022传输技术的发展11/10/2022从移动数据到移动流媒体11/10/
4、2022移动通信峰值速率的提升11/10/2022互联网发展:从电信到泛在服务11/10/2022联网主机数量11/10/2022电视网络化智能化与三网合一11/10/2022视频流量成为主流11/10/2022全球骨干网流量11/10/2022中国互联网干线带宽11/10/2022中国互联网用户11/10/2022移动终端功能的演进11/10/2022移动互联网加快普及11/10/2022智能终端引领后PC时代11/10/2022移动数据流量超过话音11/10/2022全球移动数据流量11/10/2022移动互联网流量11/10/2022互联网上1分钟11/10/2022互联网上的1天11/
5、10/2022照片11/10/2022大数据时代到来11/10/2022大数据定义11/10/2022大数据例子11/10/2022科学研究催生大数据11/10/2022物联网催生大数据11/10/2022安全监控的数据量11/10/2022环境监测催生大数据11/10/2022医疗病历隐藏大数据11/10/2022国际关注大数据11/10/2022大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。体量Volume多样性Variety价值密度Value速
6、度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效11/10/2022大数据的4V11/10/2022大数据的划分11/10/2022大数据技术挑战11/10/2022大数据技术挑战11/10/2022大数据平台技术11/10/2022分布式存储与架构
7、11/10/2022大数据的并行处理11/10/2022大数据并行处理分析11/10/2022大数据可视化分析11/10/2022虚拟化与可视化11/10/2022大数据可视化11/10/2022目 录S大数据技术概论 S云数据库技术S数据挖掘技术S商业智能11/10/2022Google云数据库11/10/2022Google云数据库11/10/2022Google云数据库11/10/2022Google云数据库SGFS架构11/10/2022Google云数据库11/10/2022Google云数据库11/10/2022Google云数据库11/10/2022Google云数据库11/10
8、/2022Google云数据库11/10/2022Google云数据库11/10/2022Google Vs Hadoop11/10/2022SHaddop是什么11/10/2022Hadoop发展编年11/10/202211/10/2022Hadoop子项目11/10/2022Hadoop特性11/10/202211/10/2022Hadoop物理部署11/10/2022Hadoop集群11/10/2022Hadoop用户11/10/2022HDFS11/10/2022HDFS11/10/2022HDFS能做什么S适合S不适合11/10/2022HDFS组件11/10/2022HDFS主要组
9、件功能11/10/2022HDFS架构11/10/2022HDFS文件11/10/2022HDFS NameNode11/10/202211/10/2022HDFS DataNode11/10/2022HDFS可靠性保障11/10/2022HDFS可靠性保障11/10/2022HDFS可靠性保障11/10/2022提升性能的措施11/10/2022HDFS:节点失效是常态11/10/2022DataNode磁盘挂了11/10/2022DataNode机器挂了11/10/2022NameNode挂了11/10/202211/10/2022Client挂了11/10/2022MR+HBase11/
10、10/2022Why MapReduce?11/10/2022大规模数据分析11/10/2022大规模数据处理11/10/2022MR特性11/10/2022M+R11/10/202211/10/2022MR编程11/10/202211/10/202211/10/202211/10/202211/10/2022单一Reduce处理11/10/2022多个Reduce处理11/10/2022MR流程11/10/202211/10/2022目 录S大数据技术概论 S云数据库技术S数据挖掘技术S商业智能11/10/2022数据挖掘技术的由来数据挖掘技术的由来大量信息在给人们带来方便的同时也带来了一大
11、堆问题:第一:是信息过量,难以消化;第二:是信息真假难以辨识;第三:是信息安全难以保证;第四:是信息形式不一致,难以统一处理。网络之后的下一个技术热点网络之后的下一个技术热点 11/10/2022数据挖掘技术的由来数据挖掘技术的由来“要学会抛弃信息”“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”数据开采和知识发现(DMKD)技术应运而生网络之后的下一个技术热点网络之后的下一个技术热点 11/10/2022数据挖掘技术的由来数据挖掘技术的由来随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进
12、行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据爆炸但知识贫乏数据爆炸但知识贫乏11/10/2022数据挖掘技术的由来数据挖掘技术的由来海量数据搜集强大的多处理器计算机数据挖掘算法支持数据挖掘技术的基础支持数据挖掘技术的基础 11/10/2022数据挖掘技术的由来数据挖掘技术的由来从商业数据到商业信息的进化从商业数据到商业信息的进化 进化阶段进化阶段 商业问题商业问题 支持技术支持技术 产品厂家产
13、品厂家 产品特点产品特点 数据搜集数据搜集(60年代年代)“过去五年中我过去五年中我的总收入是多的总收入是多少?少?”计算机计算机,磁带和磁盘磁带和磁盘 IBM,CDC提供历史性的、提供历史性的、静态的数据信息静态的数据信息数据访问数据访问(80年代年代)“在新英格兰的在新英格兰的分部去年三月的分部去年三月的销售额是多少?销售额是多少?”关系数据库关系数据库(RDBMS),结构化查结构化查询语言询语言(SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在记录级提供历在记录级提供历史
14、性的、动态数史性的、动态数据信息据信息数据仓库;数据仓库;决策支持决策支持(90年代年代)“在新英格兰的在新英格兰的分部去年三月的分部去年三月的销售额是多少?销售额是多少?波士顿据此可得波士顿据此可得出什么结论?出什么结论?”联机分析处理联机分析处理(OLAP),多维数据多维数据库库,数据仓库数据仓库Pilot,Comshare,Arbor,Cognos,Microstrategy在各种层次上提在各种层次上提供回溯的、动态供回溯的、动态的数据信息的数据信息数据挖掘数据挖掘(正在流行)(正在流行)“下个月波士顿下个月波士顿的销售会怎么样?的销售会怎么样?为什么?为什么?”高级算法高级算法,多处理
15、器计多处理器计算机算机,海量数据库海量数据库Pilot,Lockheed,IBM,SGI,其他初其他初创公司创公司提供预测性的信提供预测性的信息息11/10/2022数据挖掘技术的由来数据挖掘技术的由来数据挖掘逐渐演变的过程数据挖掘逐渐演变的过程 算法学习算法学习 专家系统专家系统 机器学习机器学习 11/10/2022数据挖掘的定义数据挖掘的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。技术上的定义及含义技术上的定义及含义 11/10/2022数据挖掘的定义数据挖掘的
16、定义数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题 技术上的定义及含义技术上的定义及含义 11/10/2022数据挖掘的定义数据挖掘的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。商业角度的定义商业角度的定义 11/10/2022数据挖掘的定义数据挖掘的定义
17、数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.数据挖掘与传统分析方法的区别数据挖掘与传统分析方法的区别 11/10/2022数据挖掘的定义数据挖掘的定义数据仓库是为决策支持而不是为事务处理所设计的数据库,它是将不同来源的事务处理数据库中对决策有用的数据提取出来而建立。数据仓库的发展是数据挖掘的动力之一。但数据挖掘既可以在数据仓库中进行,也可以在传统的事务型数据库中进行。数据挖掘和数据仓库数据挖掘和数据仓库 11/10/2022数据挖掘的定义数据挖掘的定义数据挖掘和数
18、据仓库数据挖掘和数据仓库 11/10/2022数据挖掘的定义数据挖掘的定义在线分析处理(OLAP,On-Line analytical processing)是一种增强的查询技术,是决策支持领域的一部分。但又不同于传统的查询技术。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。数据挖掘和在线分析处理数据挖掘和在线分析处理 11/10/2022数据挖掘的定义数据挖掘的定义 比如,一个分析
19、师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。数据挖掘和在线分析处理数据挖掘和在线分析处理 11/10/2022数据挖掘的定义数据挖掘的定义数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。数据挖掘和在线分析处理数据挖掘和在线分析处理 比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据
20、挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。11/10/2022数据挖掘的定义数据挖掘的定义数据挖掘,机器学习和统计分析数据挖掘,机器学习和统计分析 11/10/2022数据挖掘的定义数据挖掘的定义数据挖掘,机器学习和统计分析数据挖掘,机器学习和统计分析 11/10/2022数据挖掘的定义数据挖掘的定义软硬件发展对数据挖掘的影响软硬件发展对数据挖掘的影响 存贮性能的提高存贮性能的提高计算能力的提高计算能力的提高并行处理技术并行处理技术11/10/2022数据挖掘应用数据挖掘应用欺诈侦测欺诈侦测 AT&T 使用根据数据挖
21、掘开发的系统来侦测盗打国际电话的行为。由HNC 公司开发的队LCON 欺诈评估系统用于提示可能存在的盗用信用卡的交易。金融犯罪执法网络Al 系统(FAIS)使用包括数据挖掘在内的几种技术,识别大型现金交易中可能存在的洗钱行为。个人通讯高级安全(Advanced security for Personal communications)欧洲研究组织己经利用无指导聚类侦测移动电话网络中的欺诈。对每个用户,系统储存用户的历史和使用特征文件。在当前使用与用户的历史情况有明显区别时,怀疑为欺诈行为。11/10/2022数据挖掘应用数据挖掘应用卫生保健卫生保健 Merck-Medco Managed ca
22、re,Merck 的一个医药保险和处方电邮订购单位,使用数据挖掘来帮助找出对某种类型的病人减少费用但疗效相同的治疗方法。生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因,这都需要数据挖掘技术的支持。11/10/2022数据挖掘应用数据挖掘应用商业和金融商业和金融Farmers Group 有限公司如何使用数据挖掘方法得出拥有跑车的人不具有高事故风险的假设。美国银行(Bank of America)使用数据挖掘侦
23、测哪个客户正在使用美国银行的哪种产品,以便他们能够提供正确的产品和服务组合,更好地满足客户的需求。美国西部通信(US West Communications)根据诸如家庭的大小、家庭成员的平均年龄和所在地这些特征,使用数据挖掘和数据仓库来确定客户的倾向和需要。20 世纪Fox公司分析票房收入来确定哪个演员、情节和电影在各市场环境中更容易为观众接受。11/10/2022数据挖掘应用数据挖掘应用科学应用科学应用射线爆是短暂的伽玛射线反射,它来源于我们太阳系之外。有关事件的记录已经超过1000 次。科学界普遍认为存在两种射线爆。Mukherjee 等人使用统计聚类分析法(一种数据挖掘方法)发现了第3
展开阅读全文