Hadoop及子项目介绍课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《Hadoop及子项目介绍课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 项目 介绍 课件
- 资源描述:
-
1、Hadoop培训Hadoop与子项目介绍2013.011 产生背景 纽约证券交易所每天产生1TB的交易数据。社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。2004年Google公布了关于GFS、MapReduce和BigTable三篇技术论文。2006年2月-Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2 Hadoop简介 Hadoop 一个分布式系统基础架构,由Apache基金会开发。由Common、HDFS、MapReduce、HBase、Hive、Pig、Avro、C
2、hukwa和 ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。Hadoop 数据来源可为任何形式,最终转换为键/值对以供处理。3 Hadoop简介 Hadoop专为离线处理和大规模数据分析而设计的。Hadoop程序目前只能运行在Linux系统上,window上需要安装其他插件。Windows作为一个开发平台而非生产平台。Hadoop自身由Java语言开发,但它除了使用Java语言进行编程外,同样支持多种编程语言,如C+。4 Hadoop特点 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。成本低(Econo
3、mical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。5 Hadoop特点 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。6 Hadoop核心HDFS HDFS 是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M)。以高时间延迟为代价,不适合低
4、延迟的访问需求。HDFS不适合:存储小文件、大量的随机读、需要对文件的修改。设计目标:任何一个节点失效,不影响HDFS服务、可以自动完成副本的复制。7 Hadoop核心HDFS 原理图8 Hadoop核心HDFS 采用Master/Slave 结构。NameNode 维护集群内的元数据,对外提供创建、打开、删除和重命名文件或目录的功能。DatanNode 存储数据,并提负责处理数据的读写请求。9 Hadoop核心HDFS 文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)文件创建、写入和关闭之后不能修改文件内容。DataNode定
5、期向NameNode 上报心跳,NameNode 通过响应心跳来控制DataNode。运行中可以安全加入和退出DataNode。10 Hadoop核心HDFS 如何管理数据 1、文件块三份备份。2、心跳机制。3、数据校验。4、安全模式。5、数据管道性的写入。6、数据复制。7、单个NameNode。11 Hadoop核心HDFS之文件 文件12 Hadoop核心HDFS之文件 写文件13Write packetCreate file Write packetWrite packetSend ackSend ackSend ackClose file Hadoop核心HDFS之文件 写数据块14
6、Hadoop核心HDFS之文件 读文件15Read blockOpen fileClose fileGet block location Hadoop核心HDFS之异常 DataNode的磁盘坏了 DataNode所在机器坏了 Client所在机器坏了(lease)NameNode坏了 持久化元数据:操作日志和Fsimage Secondary NameNode-元数据提供冷备16 Hadoop核心MapReduce MapReduce 是大规模数据(TB 级)计算的利器,Map 和Reduce 是它的主要思想。也采用了Master/Slave 结构。Master 叫做JobTracker,而
展开阅读全文