大数据与分布式计算-课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据与分布式计算-课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布式 计算 课件
- 资源描述:
-
1、大数据与分布式计算 1HDFSHadoop Distributed File System2 1990年,一个普通的硬盘驱动器可存储1370 MB的数据并拥有4.4 MB/s的传输速度,所以,只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1 TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100 MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。从一个驱动器上读取所有的数据需要很长的时间,写甚至更慢。如何解决?磁盘损坏数据丢失怎么办?如果需要存储计算1000T数据怎么办?3常用RAID技术4RAID类型访问速度访问速度数据可靠性数据可靠性磁盘利用率磁盘利用率R
2、AID0很快很低100%RAID1很慢很高50%RAID10中等很高50%RAID5较快较高(N-1)/NRAID6较快较(RAID5)高(N-2)/N5HDFS系统架构67什么是HDFS?Hadoop Distributed File SystemHadoop Distributed File System(HDFS)is the primary storage system used by Hadoop applications.HDFS creates multiple replicas of data blocks and distributes them on compute nod
3、es throughout a cluster to enable reliable,extremely rapid computations.8HDFS设计目标 HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群上。9 超大文件 流式数据访问一次写入多次读取 商用硬件10不适合HDFS的场景 低延迟的数据访问 大量小文件超过NameNode的处理能力 多用户任意写入修改文件11 HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以
4、在它们所在的节点上处理这些数据了。12设计目标假设:节点失效是常态理想:1.任何一个节点失效,不影响HDFS服务2.HDFS可以自动完成副本的复制13HDFS主要组件的功能 NameNodeDataNode 存储元数据 存储文件内容元数据保存在内存中文件内容保存在磁盘 保存文件,block,datanode之间的映射关系维护了block id到datanode本地文件的映射关系14文件 文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文
5、件权限),以及每个文件的块列表以及块所在的DataNode等等 DataNode在本地文件系统存储文件块数据,以及块数据的校验和 可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。15分而治之(Divide and Conquer)16分而治之(Divide and Conquer)17分而治之(Divide and Conquer)18MapReduce19MapReduce:大规模数据处理 处理海量数据(1TB)上百/上千CPU实现并行处理 简单地实现以上目的 移动计算比移动数据更划算 分而治之(Divide and Conquer)20MapReduce特性
6、自动实现分布式并行计算 容错 提供状态监控工具 模型抽象简洁,程序员易用21MapReduce它由称为map和reduce的两部分用户程序组成,然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并。2223WordCount24252627282930MapReduce31MapReduce 物理上32MapReduce333435Hive36373839 SQLSub-queries in from clauseEqui-joins Inner Left,Right,full OuterMulti-table InsertMulti-group-by40
7、 ExtensibilityPluggable Map-reduce scriptsPluggable User Defined FunctionsPluggable User Defined Types Complex object types:List of MapsPluggable Data Formats Apache Log Format Columnar Storage Format41Hive QL JoinINSERT OVERWRITE TABLE pv_usersSELECT pv.pageid,u.ageFROM page_view pvJOIN user uON(pv
8、.userid=u.userid);42Hive QL Join in Map Reducekeyvalue111111222pageid useridtime11119:08:0121119:08:1312229:08:14useridagegender11125female22232malepage_viewuserkeyvalue111222Mapkeyvalue111111111keyvalue222222ShuffleSortReduce43了解Hive的意义?Hive是一个很方便的工具,一般的业务人员就可以很快上手。?M/R任务的数量控制着语句的执行时间。?如何减少M/R的任务数量
展开阅读全文