大数据存储与处理-第二讲5课件1.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据存储与处理-第二讲5课件1.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 第二 课件
- 资源描述:
-
1、 大数据的三个关键问题 Google的大数据技术 Google的业务:PageRank 三大法宝1第二讲 大数据的关键技术文件存储文件存储数据分析数据分析数据计算数据计算数据存储数据存储平平台台管管理理数据集成数据集成数据源数据源Database Web Log现代数据处理现代数据处理能力组件能力组件现代数据处理框架三大关键问题3V计算存储容错三大关键问题存储计算容错存储问题 解决大数据存储效率的两方面:容量 吞吐量 容量 单硬盘容量提升:MB GB TB 系统整体容量提升:DAS、NAS、SAN 吞吐量=传输数据量/传输时间 单硬盘吞吐量提升:转速、接口、缓存等 节点吞吐量提升:RAID、专
2、用数据库机提升吞吐量 RAID:Redundant Array of Inexpensive Disks,冗余磁盘阵列 把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性能和高可靠性 RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升吞吐量Source:http:/ Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。指令数主频IPS MF IPC 多处理器技术 多处理器技术的核心:按处理器之间的关系可以分为两类:1 F 1 F/N 非对称
3、多处理器架构(ASMP)不同类型计算任务或进程由不同处理器执行简单,操作系统修改小低效早期过渡性架构对称多处理器架构(SMP)所有处理器完全对等计算任务按需分配高效普遍采用并行模式独立并行两个数据操作间没有数据依赖关系可以采用独立并行的方式分配给不同的处理器执行例:两个独立数据集的Scan操作流水线并行多个操作间存在依赖关系,且后一个操作必须等待前一个操作处理完后方可执行将多个操作分配给不同处理器,但处理器间以流水线方式执行例:Scan Sort Group分割并行数据操作的输入数据可以分解为多个子集,且子集之间相互独立分割为若干独立的子操作,每个子操作只处理对应的部分数据,并将这些子操作配到
4、不同的处理器上执行例:Scan Merge并行系统架构共享内存(Shared Memory,SM)多个处理器,多个磁盘,一个共享内存,通过数据总线相连处理器间共享全部磁盘和内存结构简单,负载均衡数据总线成为瓶颈,可扩展性较差,共享内存单点故障适合处理器较少(8)的小规模并行数据库共享磁盘(Shared Disk,SD)多个处理器,每个处理器拥有独立内存,多个磁盘,处理器与磁盘通过数据总线相连处理器间共享全部磁盘容错性提高共享磁盘成为性能瓶颈,需要额外维护内存与磁盘间的数据一致性无共享(Shared Nothing,SN)每个处理器拥有独立的内存和若干磁盘,通过高速网络相连处理器独立处理所管理的
5、数据数据传输量小,效率高可扩展性强节点间交换数据开销较大适合处理器数量较大的大规模并行系统后期发展的主流三大关键问题存储计算容错数据容错 RAID单节点数据冗余存储 RAID0:并行磁盘 RAID1:镜像冗余 RAID10:RAID1+RAID0 RAID5:校验冗余Source:http:/ 计算任务容错的关键问题:故障监测 计算数据定位与获取 任务迁移 Google是如何解决其大数据处理的三个关键性问题的?我们需要先了解Google的业务特点。14Google的大数据技术1995199619971999200120032005200720092011.1998200020022004200
6、6200820102012当佩奇遇见布林合作开发BackRub搜索引擎命名GoogleGoogle公司成立首名专用厨师入职建立10亿网址的索引图片搜索+30亿网址索引商品+新闻+API开始收购+Google图书80亿网址索引+上市+学术搜索地图+Talk+分析YouTube+GoogleAppsGmail+街景+AndroidHealth+iPhone应用社交网络搜索+实时 地图导航+搜索 收购Moto手机+投 平板电脑资能源+Google应用商店 眼镜GoogleGoogle最重要的业务?搜索AdWords Google发展史Google之前的搜索 目录型搜索:Yahoo!收集:人工分类 索
7、引:主题 使用:目录结构 优点:准确率高 缺点:覆盖率低 索引型搜索:AltaVista 收集:自动爬取(Scooter)索引:自动标记 使用:输入关键词搜索 优点:覆盖率高 缺点:准确率低 覆盖率 VS.准确率:鱼与熊掌不可兼得?GoogleGoogle的自我揭秘!核心算法 Lawrence Page,Sergey Brin,et.al.,The PageRank Citation Ranking:Bringing Order to theWeb.Technical Report,Stanford InfoLab,1999.(6881)三大法宝 Sanjay Ghemawat,Howard
8、Gobioff,et.al.,The Google file system,Proceedings of theNineteenth ACM Symposium on Operating Systems Principles,2003.(3911)Jeffrey Dean,Sanjay Ghemawat,MapReduce:Simplified Data Processing on Large Clusters,Sixth Symposium on Operating System Design and Implementation,2004.(9569)Fay Chang,Jeffrey D
9、ean,et.al.,Bigtable:A Distributed Storage System for Structured Data,Seventh Symposium on Operating System Design and Implementation,2006.(2558)灵魂血肉 搜索结果如何排序!佩奇(Page),斯坦福 整个互联网就像一张大的图,每个网站就像一个节点,每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做篇博士论文。算法的图论表述01/201/20001/201/200010000011/31/31/300n1n2n3 n4
10、n5PageRank(9)算法的计算问题如何计算10亿、100亿个网页?行列数以亿为单位的矩阵相乘!Google三大法宝之一:MapReduce矩阵乘法串行实现1:for i=1;i=N;i+2:for j=1;j=N;j+3:4:5:6:for k=1;k#(5 8 9 8 5)(reduce#+#(5 8 9 8 5)-35Lisp中的Map和Reduce操作MapReduce原理Source:http:/www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/MapReduce机制 主控程序(Master):将Map和Reduce分配到合
展开阅读全文