大数据体系结构PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据体系结构PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 体系结构 PPT 课件
- 资源描述:
-
1、大数据科学与工程系列大数据科学与工程系列 大数据体系结构大数据体系结构陈志成陈志成 中国科学院大学中国科学院大学 2014年06月主要内容主要内容一、大数据时代的新命题一、大数据时代的新命题二、大数据的体系结构二、大数据的体系结构三、大数据的关键技术三、大数据的关键技术四、物联网与云计算架构四、物联网与云计算架构五、知名企业大数据架构五、知名企业大数据架构六、大数据系统设计案例六、大数据系统设计案例u 总结、交流、作业总结、交流、作业一、大数据时代的新命题一、大数据时代的新命题谷歌大数据中心:谷歌大数据中心:全球主要全球主要DCDC有有8 8个个大数据表象概念:大数据表象概念:百度数据规模百度
2、数据规模大数据表象概念:大数据表象概念:对系统要求对系统要求大数据时代的新命题大数据时代的新命题: :n 数据在爆炸式增长数据在爆炸式增长 互联网海量大数据互联网海量大数据 物联网各类型数据物联网各类型数据n 发数据处理能力要求提高发数据处理能力要求提高 大规模数据存取方式大规模数据存取方式 大数据并行技术能力大数据并行技术能力n 数据间关联性分析加强数据间关联性分析加强 社交网络关系社交网络关系 多业务关联性多业务关联性 用户行为分析用户行为分析n 网络数据的实时同步网络数据的实时同步 一切营销都线下线上一切营销都线下线上 多业务跨地域数据同步多业务跨地域数据同步n “数据结构化数据结构化”
3、本身是最本身是最具挑战性的一个环节具挑战性的一个环节. .n 海量数据与快速处理是一海量数据与快速处理是一对悖论对悖论. .信息社会需求:信息社会需求:信息化信息化- -智能化智能化- -现代化现代化农业社会工业社会信息社会人力工具 - - 镰刀 - - 锄头 动力工具 - - 机车 - - 机床智能工具-推理机-智能网 信息时代的大数据需求信息时代的大数据需求信息时代数据大爆炸,信息时代数据大爆炸,推动智能技术发展推动智能技术发展信息时代,软件编程模型发展信息时代,软件编程模型发展n “面向信息处理面向信息处理”的智能化编程模型,编程简化为数据配置与管理大数据技术架构大数据技术架构数据数据智
4、能智能二、大数据的系统架构二、大数据的系统架构传统数据库技术架构传统数据库技术架构: :n OracleOracle数据库体系架构数据库体系架构大数据架构:分层架构大数据架构:分层架构u 从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过5 5个环节,包括个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。数据准备、数据存储与管理、计算处理、数据分析和知识展现。大数据的系统架构:大数据的系统架构:整体系统架构整体系统架构新一代编程语言大数据架构:大数据架构:整体逻辑功能架构整体逻辑功能架构大数
5、据架构理解:搜索引擎大数据架构理解:搜索引擎大数据架构理解:网页内容抓取大数据架构理解:网页内容抓取大数据系统架构大数据系统架构HadoopHadoopuHadoopHadoop分布式系统组成分布式系统组成大数据系统架构大数据系统架构HadoopHadoop在图中,在图中,HadoopHadoop主要的功能组件有:主要的功能组件有:n Hadoop Common: Hadoop Common: 包含包含HDFSHDFS、MapReduceMapReduce和其他项目公共内容;和其他项目公共内容;n HDFSHDFS:HadoopHadoop分布式文件系统;分布式文件系统;n MapReduce
6、MapReduce:一个用于并行处理大数据集的软件框架。:一个用于并行处理大数据集的软件框架。Map Map 函数接受一组数据并函数接受一组数据并将其转换为一个键将其转换为一个键/ /值对列表,输入域中的每个元素对应一个键值对列表,输入域中的每个元素对应一个键/ /值对。值对。Reduce Reduce 函数接受函数接受 Map Map 函数生成的列表,然后根据它们的键(为每个键生成一个键函数生成的列表,然后根据它们的键(为每个键生成一个键/ /值值对)缩小键对)缩小键/ /值对列表;值对列表;n HBase: HBase: 类似类似Google BigTableGoogle BigTable
7、的分布式的分布式NoSQLNoSQL列数据库;列数据库;n HiveHive:是基于:是基于HadoopHadoop的一个数据仓库工具,可以将结构化的数据文件映射为一的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的张数据库表,并提供完整的sqlsql查询功能,可以将查询功能,可以将sqlsql语句转换为语句转换为MapReduceMapReduce任务任务进行运行;进行运行;n ZookeeperZookeeper:分布式锁,提供类似:分布式锁,提供类似Google ChubbyGoogle Chubby的功能;的功能;n AvroAvro:新的数据序列化格式与传输工
8、具,将逐步取代:新的数据序列化格式与传输工具,将逐步取代HadoopHadoop原有的原有的IPCIPC机制;机制;n PigPig:大数据数据流分析平台,为用户提供多种接口;:大数据数据流分析平台,为用户提供多种接口;n SqoopSqoop:在:在HADOOPHADOOP与传统的数据库间进行数据的传递。与传统的数据库间进行数据的传递。大数据系统架构大数据系统架构HadoopHadoop:功能定位功能定位1.1.大数据系统架构大数据系统架构HadoopHadoop:层次对应层次对应大数据:分布式计算架构大数据:分布式计算架构大数据架构大数据架构: : MapReduceMapReduce工作
9、原理工作原理1 1大数据架构大数据架构: : MapReduceMapReduce工作原理工作原理2 2三、大数据的关键技术三、大数据的关键技术大数据关键技术到底有哪些?大数据关键技术到底有哪些?核心问题是:核心问题是:( (计算、存储、分析计算、存储、分析) )算法算法大数据:恐怖的大数据大数据:恐怖的大数据( (生活示例生活示例) )智能性:数据分析、自然语言理解智能性:数据分析、自然语言理解 逻辑推理逻辑推理( (演示演示) )艺术性:分形算法、视频动画艺术性:分形算法、视频动画( (演示演示) )大数据关键技术大数据关键技术1 1:大数据存储技术大数据存储技术u数据的海量化和快增长特征
10、、以及数据格式的多样化数据的海量化和快增长特征、以及数据格式的多样化是大数据对是大数据对存储技术提出的首要挑战。要求存储技术提出的首要挑战。要求底层硬件架构和文件系统在性价比上要大大高于传底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。统技术,并能够弹性扩展存储容量。谷歌文件系统(GFS)和Hadoop 的分布式文件系统HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基础。GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O 吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分
11、布式架构,能达到较高的并发访问能力。网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算(Data Intensive Computing)时I/O 容易成为瓶颈。单机文件系统不提供数据冗余、可扩展性、容错及并发能力差大数据关键技术大数据关键技术2 2:并行计算能力并行计算能力u 大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。u 针对不同计算场景发展出特定分布式计算框架。 Yahoo Yahoo 提出的提出的S4 S4 系统、系统、Twitter Twitter 的的Storm,Storm,谷歌谷歌2
12、010 2010 年公布的年公布的DremelDremel系统,系统, MapReduceMapReduce内存化以提高实时性的内存化以提高实时性的Spark Spark 框架框架. . 数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据数据n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期大数据关键技术大数据关键技术3 3:数据分析技术数据分
13、析技术u基于计算流体力学的三维呈现基于计算流体力学的三维呈现: : 如如用能场所用能场所3D3D场景及场景及CFDCFD温度及能效温度及能效云场呈现如下图。云场呈现如下图。大数据关键技术大数据关键技术4 4:数据显示技术数据显示技术大数据分析大数据分析u世界杯:英格兰世界杯:英格兰vsvs意大利意大利 1:21:2。数据热图。数据热图大数据关键技术大数据关键技术5 5:数据挖掘算法数据挖掘算法代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数据挖掘作为数据挖掘作为一个独立的应一个独立的应用用支持一个或者支持一个或者多个算法多个算法 独立的系独立的
14、系统统单个机单个机器器向量数据向量数据第二代第二代和数据库以及和数据库以及数据仓库集成数据仓库集成多个算法:能够多个算法:能够挖掘一次不能放挖掘一次不能放进内存的数据进内存的数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质同质/ /局局部区域部区域的计算的计算机群集机群集有些系统支有些系统支持对象、文持对象、文本、和连续本、和连续的媒体数据的媒体数据第三代第三代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构支持半结构化 数 据 和化 数 据 和webweb
15、数据数据第四代第四代和移动数据和移动数据/ /各种计算数各种计算数据联合据联合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普 遍 存 在普 遍 存 在的 计 算 模的 计 算 模型型Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Tim
16、eTime序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售大数据关键技术大数据关键技术5 5:数据挖掘算法数据挖掘算法 分类(分类(ClassificationClassification) 聚类聚类(Clustering)(Clustering) 相关规
17、则相关规则(Association (Association Rule)Rule) 回归回归(Regression)(Regression) 其他其他 知识发现系统需要一个前处理知识发现系统需要一个前处理过程过程 数据抽取数据抽取 数据清洗数据清洗 数据选择数据选择 数据转换数据转换 知识发现系统是一个自动知识发现系统是一个自动/ /半半自动过程自动过程 知识发现系统要有很好的性能知识发现系统要有很好的性能数据挖掘主要方法:数据挖掘主要方法:ETLETLuETL Process FrameworkETL Process Framework ETL ETL工具有:工具有:OWB(Oracle W
18、arehouse OWB(Oracle Warehouse Builder)Builder)、ODI(Oracle Data Integrator)ODI(Oracle Data Integrator)、Informatic PowerCenterInformatic PowerCenter、AICloudETLAICloudETL、DataStageDataStage、DataSpider, DataSpider, 等。等。ApplicationApplication& Operations& OperationsServicesServicesTransportTransportServi
19、cesServicesLoadLoadTransformTransformExtractExtractTarget adaptorsTarget adaptorsSource adaptorsSource adaptorsETL Data import/ETL Data import/Rule importRule importETL Data ExportETL Data ExportRuntimeRuntimeMata dataMata dataServicesServicesDesign Design managementmanagementMeta data Meta data Imp
20、ort/Import/exportexportMeta data Meta data managementmanagement四、物联网与云计算架构四、物联网与云计算架构互联网上的物联网:概念互联网上的物联网:概念互联网上的物联网:发展互联网上的物联网:发展u 20092009年年8 8月月7 7日日,温家宝视察中科院嘉兴无线传感网工程中心,温家宝视察中科院嘉兴无线传感网工程中心无锡无锡研发分中研发分中心,提出心,提出“在传感网发展中,要早一点谋划未来,早一点攻破核心技术在传感网发展中,要早一点谋划未来,早一点攻破核心技术”,明确要求尽快建立中国的传感信息中心,或叫,明确要求尽快建立中国的传感
21、信息中心,或叫“感知中国感知中国”中心。中心。u 20102010年年2 2月月2525日日, , 中国首个传感网大学科技园在无锡成立,中国首个传感网大学科技园在无锡成立,北京邮电大学北京邮电大学无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。u 移动、电信、联通移动、电信、联通三大运营商纷纷在无锡成立物联网研究中心,以无锡为三大运营商纷纷在无锡成立物联网研究中心,以无锡为首的国内大中城市争相建设智能城市,争取成为感知中国首的国内大中城市争相建设智能城市,争取成为感知中国示范示范城市。城市。u 20102010年年3 3月
22、月2 2日日,上海物联网中心在上海,上海物联网中心在上海嘉定嘉定揭牌,宣称将以此打造国内最揭牌,宣称将以此打造国内最具竞争力、具有国际影响的物联网技术研发基地,总投资达具竞争力、具有国际影响的物联网技术研发基地,总投资达8 8亿元。把合亿元。把合作伙伴锁定为中国科学院上海微系统与信息技术研究所。作伙伴锁定为中国科学院上海微系统与信息技术研究所。u 20102010年年3 3月月9 9日日,中国物联网标准联合工作组筹备会议在京召开。,中国物联网标准联合工作组筹备会议在京召开。3 3月中旬月中旬,浙江省成立了物联网产业规划编制小组,浙江省成立了物联网产业规划编制小组,浙江浙江省经济和信息化委员会副
展开阅读全文