互联网数据工程重点试验室课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《互联网数据工程重点试验室课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 数据 工程 重点 试验室 课件
- 资源描述:
-
1、 2013年博士论文开题报告高可扩展并行图处理技术高可扩展并行图处理技术及其基因组装应用研究及其基因组装应用研究 答辩人:孟金涛答辩人:孟金涛导导 师:冯圣中师:冯圣中内容提要1、选题依据2、研究现状与挑战3、研究内容、目标4、拟解决的关键问题5、拟采取的研究方案可行性分析6、现已取得进展7、实验计划及时间安排8、参考文献社会媒体社会媒体 图就是对现实生活中关系的一种抽象图就是对现实生活中关系的一种抽象 图图:百亿个顶点和边,点和边还有丰富的信息百亿个顶点和边,点和边还有丰富的信息广告服务广告服务科学研究科学研究互联网互联网PeopleFactsProductsInterestsIdeas3选
2、题依据-图是无处不在的研究现状-Hadoop图处理的方法和进展 基于Hadoop开发的图处理系统 Pegasus U Kang,ICDM09 主要方法:通用矩阵向量乘法(GIM-V)应用:连通分量,PageRank,图的直径 9 服务器,问题规模1.4B点,6.7B边,性能5X加速.HAMA Sangwon Seo,CloudCom10 主要方法:Hadoop上实现的矩阵乘法 应用:矩阵乘法,可矩阵运算表示的图算法 16 服务器(共32核),矩阵规模5k X 5K研究现状-Hadoop图处理的方法和进展Surfer Rishan Chen,SoCC2012 主要方法:适应网络带宽的图划分算法
3、简单应用:统计顶点的度,邻居个数,三角统计,PageRank 问题规模 508.7M 点,29.6G 边 32服务器(共128核),基于Windows操作系统 提供两个接口MapReduce and Propagation.图分割性能提升55%,图处理性能提升671%网络流量减少3095%,执行时间减少3085%研究现状-Hadoop图处理的问题 扩展性不高 服务器数目少于32台(Surfer),核心数少于130核 问题规模不大 最大问题规模1.4B点,6B边(Pegasus)只能处理易并行问题 例如矩阵运算,统计点的度数,连通分量,PageRank等 一些复杂问题,例如:修改图的结构的算法(
4、图的初等收缩),紧耦合问题(网络流)等,访存冲突(List ranking)图计算依赖通讯 Hadoop依赖文件系统来交换数据 Hadoop基本运算单位是MapReduce迭代 每次迭代都很耗时,hadoop上算法设计的目标就是减少迭代次数研究现状-Hadoop图处理的问题 原因分析 数据不常驻内容,每次迭代中,那些没有修改的图的数据结构,由于没有存在内存中,而需要从mapper发送到reducers去 Hadoop基于文件系统(Disk)的计算,访问延迟比较高 需要额外的MapReuce Jobs来检查是否到达了收敛要求 编程模型接口简单,语言表达能力不足(RISC VS CISC)开始尝试
5、使用或者设计复杂高效的计算模型:BSP研究现状-基于BSP图处理 基于BSP图处理系统 PBGL(Parallel Boost Graph library)Gregor,POOSC05 主要方法:基于MPI通讯原语,使用C+泛型编程开发BOOST扩展图算法库 主要应用:单源最短路径(SSSP),连通分量,最新生成树,图着色.问题规模:1M个点,15M个边 处理器个数:128核 唯一一个用C+,MPI开发的图算法库研究现状-基于BSP图处理 Google Pregel G.Malewicz,SIGMOD10 应用领域 PageRank Semi-Clustering Single Source
6、Shortest path(SSSP)Minimum spanning Tree(MST)主要衍生系统 Giraph (2010)GPS (Semih,CMU,2012)GoldenOrb (2010)Spark (2012)工作机制 在Map-Reduce机制上加入消息通讯机制 In-Meomory 计算,减少文件IO操作 Pregel的Superstep使用BSP的大同步机制Pregel:G.Malewicz,Google,2010研究现状-基于BSP图处理 GPS&GreenMarl 应用领域 PageRank Betweenness Centrality 工作机制 Static Gra
7、ph Partition Dynamic Repartitioning Single Vertex and message objects Controlling message speed Combining Messages Message Buffer 特点 12 times faster than Giraph 顶点个数只有2G个 复杂算法依赖GreenMarl翻译器GPS:Semih Salihoglu,Stanford U,2012GreenMarl:Sungpack Hong,Oracle,2012Jennifer Widom,2012 未发表的工作1.Salihoglu S,W
8、idom J.GPS:A Graph Processing System.Technical Report,2012,http:/ilpubs.stanford.edu:8090/1039/7/full_paper.pdf2.Hong S,Salihoglu S,Widom J,Olukotun K.Compiling GreenMarl into GPS.Technical Report,November,2012.http:/ppl.stanford.edu/papers/tr_gm_gps.pdf研究现状与挑战 综述最好以指标、技术路线或挑战等来组织,这样脉络比较清晰.比如:图的分割,主
9、要的方法?取得的进展?存在的问题?等等.能够量化的就尽量用量化的结果说明问题.研究现状-Hadoop MapReduce Hadoop MapReduce 适合易并行的大数据计算 特征提取 交叉验证 统计排序 图结构难划分 Hadoop不负责数据划分策略,由用户定义 图计算依赖通讯 Hadoop依赖文件系统来交换数据 Hadoop基本运算单位是MapReduce迭代 每次迭代都很耗时,hadoop上算法设计的目标就是减少迭代次数Jeffrey Dean 2008年1.Jeffrey Dean,Sanjay Ghemawat,MapReduce:simplified data processin
10、gon large clusters,Communications of the ACM-50th anniversaryissue:1958-2008 Volume 51 Issue 1,January 2008,Pages 107-113ACM New York,NY,USA2.http:/hadoop.apache.org/研究现状-基于Hadoop的图处理系统Pegasus (U Kang,CMU,2010)适用于Graph Mining Spectral clustering Diameter estimation Connected components.Surfer (Risha
11、n Chen,PKU,2010)在MapReduce上的大图处理 提供两个接口MapReduce and propagation.统计顶点的度,邻居个数相比基于BSP的图系统有两个不高效的地方 每次迭代中,那些没有修改的图的数据结构,由于没有存在内存中,而需要从mapper发送到reducers去。需要额外的MapReuce Jobs来检查是否到达了收敛要求。Pegasus:U Kang,CMU,2010Sufer:Rishan Chen,PKU 20101.U Kang,Duen Horng Chau,and Christos Faloutsos.IEEE International Con
12、ference on Acoustics,Speech,and Signal Processing(ICASSP)2012,Kyoto,Japan2.Rishan Chen,Xuetian Weng,Bingsheng He,Mao Yang,Large graph processing in the cloud,in Proceedings of the ACM SIGMOD International Conference on Management of Data,SIGMOD 2010研究现状-基于Hadoop的图处理系统 Mahout (2010)大数据的并行处理 适用于机器学习和数
13、据挖掘 K-Means,Fuzzy K-Means Clustering 基于随机森林决策树的分类器 用户和项目推荐 奇异值分解.1.Mahout,http:/mahout.apache.org/研究现状Data-Parallel Graph-Parallel交叉验证特征提取Map Reduce计算密集型频率统计,排序Graphical ModelsGibbs SamplingBelief PropagationVariational Opt.半监督学习半监督学习顶点扩散CoEM图分析图分析PageRankBFS,DFS图直径,图匹配Data MiningClusteringFilterMap
14、 ReduceBSP,eg PregelBarrier研究现状-大同步模型BSP&PregelComputeCommunicateValiant 90 研究现状-基于BSP的图算法库 基于BSP的图算法库 Parallel Boost Graph Library(PBGL).Boost C+库被互联网公司广泛使用 扩展性差 可扩展到128个核心,处理图的规模有限 处理顶点规模到百万.数据一致性保证 使用ghost node 并不能减少通讯,反而带来数据一致性的问题。Memory overhead 通讯延迟1.Gregor,A.Lumsdaine,The Parallel BGL:A Gener
15、ic Library forDistributed Graph Computations,in Proc.of ParallelObject-Oriented Scientific Computing(POOSC),July 2005.2.Gregor,A.Lumsdaine,Lifting Sequential Graph Algorithms forDistributed-Memory Parallel Computation.in Proceedings of the 20thannual ACM SIGPLAN conference on Object-oriented program
16、ming,systems,languages,and applications(OOPSLA05),October 2005,pp.423-437.3.http:/www.boost.org/doc/libs/1_53_0/libs/graph_parallel/doc/html/index.html Douglas Gregor 2005年研究现状-Pregel及其衍生系统Google Pregel (G.Malewicz,google,2010)应用领域 PageRank Semi-Clustering Single Source Shortest path(SSSP)Minimum sp
17、anning Tree(MST)主要衍生系统 Giraph (2010)HAMA (2011)GPS (Semih,CMU,2012)GoldenOrb (2010)Spark (2012)工作机制 在Map-Reduce机制上加入消息通讯机制 In-Meomory 计算,减少文件IO操作 Pregel的Superstep使用BSP的大同步机制Pregel:G.Malewicz,Google,2010研究现状-Pregel及其衍生系统 GPS&GreenMarl 应用领域 PageRank Betweenness Centrality 工作机制 Static Graph Partition D
18、ynamic Repartitioning Single Vertex and message objects Controlling message speed Combining Messages Message Buffer 特点 12 times faster than Giraph 顶点个数只有2G个 复杂算法依赖GreenMarl翻译器GPS:Semih Salihoglu,Stanford U,2012GreenMarl:Sungpack Hong,Oracle,2012Jennifer Widom,2012 未发表的工作1.Salihoglu S,Widom J.GPS:A G
19、raph Processing System.Technical Report,2012,http:/ilpubs.stanford.edu:8090/1039/7/full_paper.pdf2.Hong S,Salihoglu S,Widom J,Olukotun K.Compiling GreenMarl into GPS.Technical Report,November,2012.http:/ppl.stanford.edu/papers/tr_gm_gps.pdf图的并行计算研究现状-效率低BSP model provably inefficient for some Graph
20、algorithms图的并行计算研究现状Data-Parallel Graph-Parallel交叉验证特征提取Map Reduce计算密集型频率统计,排序Graphical ModelsGibbs SamplingBelief PropagationVariational Opt.半监督学习半监督学习顶点扩散CoEM图分析图分析PageRankBFS,DFS图直径,图匹配Data MiningClusteringFilterBSP,eg PregelAsynchronous图计算同步 v.异步研究现状-Trility&SPARQLTrility&SPARQL 应用领域在线查询(NoSQL,S
21、PARQL)图算法(BFS,DFS,Pagerank)图生成与显示工作机制数据模型:超图分布式图数据库:基于内存的图仓库,它有丰富的数据库特点Trinity支持以节点为基础的图形并行处理(Pregel)Trinity支持在节点上的操作以异步的方式进行(GraphLab)特点结构化的分布式图数据库,期望像查询SQL语言一样处理图算法支持 SPARQL 图查询语言.net开发,提供C#APITrility:Bin Shao,Haixun Wang,微软亚研,2012Trility 系统结构1.Bin Shao,Haixun Wang,Yatao Li,The Trinity Graph Engin
22、e,http:/ 研究现状-异步图处理系统GraphLab GraphLab(PowerGraph)应用领域 Graph Analytics Graph Vision Machine Learning 工作机制 异步通讯工作工作流程:Gather-Apply-Scatter 1.Yucheng Low,Joseph Gonzalez,Aapo Kyrola,Danny Bickson,Carlos Guestrin,Joseph M.Hellerstein,GraphLab:A New Framework for Parallel Machine Learning,CORR,vol.abs/1
展开阅读全文