大数据存储与处理-第四讲课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据存储与处理-第四讲课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 第四 讲课
- 资源描述:
-
1、HDFS 实战Hadoop Hadoop 运行模式运行模式Hadoop Hadoop 伪分布式安装伪分布式安装HDFSHDFS命令行工具命令行工具HDFSHDFS安全模式安全模式启动、停止启动、停止HDFSHDFS服务服务如何查看如何查看HDFSHDFS日志日志如何查看如何查看HDFS WebHDFS Web控制台控制台HDFSHDFS参数配置参数配置 单机单机 在一个在一个Java进程内模拟进程内模拟Hadoop的各个角色的各个角色 伪分布式伪分布式 由各个由各个Java进程来模拟进程来模拟Hadoop的各个角色的各个角色 集群环境集群环境HadoopHadoop运行模式运行模式Hadoop
2、 Filesystem shell Hadoop Filesystem shell$HADOOP_HOME_BASE/bin/hadoop fs FS shellFS shell使用使用URIsURIs地址地址Schema:/autority/pathSchema:/autority/path例如hdfs:/namenodehost:port/folder1/folder2file:/home/tcloud/child如果不指定schema,则使用配置文件中的默认地址fs.default.name 可以使用hadoop fs help 查看所有命令HDFS命令行工具命令行工具用途用途显示一个或
3、多个文件内容到控制台使用方法使用方法hadoop fs-cat URI URI.例子例子:hadoop fs-cat hdfs:/host1:port1/file1 hdfs:/host2:port2/file2hadoop fs-cat file:/file3/user/hadoop/file4catcat用途用途将本地一个或多个文件导入HDFS以上两个命令唯一的不同时copyFromLocal的源只能是本地文件,而put可以读取stdin的数据使用方法使用方法hadoop fs-put/copyFromLocal URI例子例子:hadoop fs-put localfile.txt/us
4、er/hadoop/hadoopfile.txthadoop fs-put localfile1 localfile2/user/hadoop/hadoopdirhadoop fs-put localfile hdfs:/host:port/hadoop/hadoopfilehadoop fs-put-hdfs:/host:port/hadoop/hadoopfilefromstdinput/copyFromLocalput/copyFromLocal用途用途将HDFS中的一个或多个文件导出到本地文件系统使用方法使用方法hadoop fs-get/copyToLocal-ignorecrc-c
5、rc URI 例子例子:hadoop fs-get/user/hadoop/hadoopfile localfilehadoop fs-get hdfs:/host:port/user/hadoop/file localfileget/copyToLocalget/copyToLocal用途用途列出文件夹目录信息lsr递归显示文件子目录使用方法使用方法hadoop fs-ls/lsr URI例子例子:ls/lsrls/lsrhadoopmaster$hadoop fs-ls/user/hadoopdrwxr-xr-x -hadoop supergroup 0 2012-05-14 17:24/
6、user/hadoop/ahadoopmaster$hadoop fs-lsr/user/hadoopdrwxr-xr-x -hadoop supergroup 0 2012-05-14 17:24/user/hadoop/a-rw-r-r-2 hadoop supergroup 47 2012-05-14 17:24/user/hadoop/a/oct.sh-rw-r-r-2 hadoop supergroup 6 2012-05-14 17:24/user/hadoop/a/x.sh用法用法hadoop fsck GENERIC_OPTIONS -move|-delete|-openfor
7、write-files-blocks-locations|-racks检查dfs的文件的健康状况只能运行在master上fsckfsckhadoopmaster$hadoop fsck/user/hadoopFSCK started by hadoop from/172.16.206.77 for path/user/hadoop at Fri Jun 15 17:11:50 CST 2012./user/hadoop/a/oct.sh:Under replicated blk_-3537883739360629007_1303.Target Replicas is 2 but found 1
8、 replica(s)./user/hadoop/a/x.sh:Under replicated blk_8664072905926163771_1304.Target Replicas is 2 but found 1 replica(s).fsckfsckStatus:HEALTHY Total size:57697 B Total dirs:5 Total files:6 Total blocks(validated):5(avg.block size 11539 B)Minimally replicated blocks:5(100.0%)Over-replicated blocks:
9、0(0.0%)Under-replicated blocks:5(100.0%)Mis-replicated blocks:0(0.0%)Default replication factor:2 Average block replication:1.0 Corrupt blocks:0 Missing replicas:2(100.0%)Number of data-nodes:1 Number of racks:1FSCK ended at Fri Jun 15 17:11:50 CST 2012 in 3 milliseconds用法用法hadoop dfsadmin commandha
10、doop dfsadmin-help 可以列出所有的可用命令主要的有一下几个-safemode 安全模式操作-report 报告集群DFS的运行情况可以使用 hadoop dfsadmin-help 查看所有命令的用法dfsadmindfsadmin指文件系统所处的一种只读的安全模式指文件系统所处的一种只读的安全模式HDFSHDFS启动时会在启动时会在safemodesafemode状态状态相关命令:相关命令:HDFSHDFS的的Safe ModeSafe Mode$hadoop dfsadmin-safemode get#安全模式当前状态信息安全模式当前状态信息$hadoop dfsadmi
11、n-safemode enter#进入安全模式进入安全模式$hadoop dfsadmin-safemode leave#解除安全模式解除安全模式$hadoop dfsadmin-safemode wait#挂起挂起,直到安全模式结直到安全模式结束束NameNodeNameNode$HADOOP_HOME_BASE/bin/hadoop-daemon.sh start namenodeSecondary NameNodeSecondary NameNode$HADOOP_HOME_BASE/bin/hadoop-daemon.sh start secondarynamenodeDataNode
12、DataNode同时启动:$HADOOP_HOME_BASE/bin/hadoop-daemons.sh start datanode单台启动:$HADOOP_HOME_BASE/bin/hadoop-daemon.sh start datanodeNameNodeNameNode、Secondary NameNodeSecondary NameNode、DataNode DataNode$HADOOP_HOME_BASE/bin/start-dfs.shHDFSHDFS服务启动服务启动NameNodeNameNode$HADOOP_HOME_BASE/bin/hadoop-daemon.sh
13、 stop namenodeSecondary NameNodeSecondary NameNode$HADOOP_HOME_BASE/bin/hadoop-daemon.sh stop secondarynamenodeDataNodeDataNode同时关闭:$HADOOP_HOME_BASE/bin/hadoop-daemons.sh stop datanode单台关闭:$HADOOP_HOME_BASE/bin/hadoop-daemon.sh stop datanodeNameNodeNameNode、Secondary NameNodeSecondary NameNode、Data
14、Node DataNode$HADOOP_HOME_BASE/bin/stop-dfs.shHDFSHDFS服务关闭服务关闭NameNodeNameNode位置:$HADOOP_HOME_BASE/logs/hadoop-$USER-namenode-$HOSTNAME.log 命令:tail-fn 100$HADOOP_HOME_BASE/logs/hadoop-$USER-namenode-$HOSTNAME.log DataNodeDataNode位置:$HADOOP_HOME_BASE/logs/hadoop-$USER-datanode-$HOSTNAME.log命令:tail-fn
15、 100$HADOOP_HOME_BASE/logs/hadoop-$USER-datanode-$HOSTNAME.log 设置设置Log 文件文件 的大小和数量的大小和数量 修改core-site.xml中的参数 hadoop.logfile.size hadoop.logfile.count如何查看如何查看HDFSHDFS日志日志 查看不同组件的日志级别查看不同组件的日志级别hadoop daemonlog-getlevel host:port packageName 设置组件的日志级别设置组件的日志级别 hadoop daemonlog setlevle host:port packa
16、geName level“level”DEBUG,INFO,ERROR,FATAL 端口为前台页面的端口,缺省为端口为前台页面的端口,缺省为50070 组件名称组件名称(packageName)org.apache.hadoop.hdfs.server.namenode.NameNode org.apache.hadoop.hdfs.server.datanode.DataNode org.apache.hadoop.hdfs org.apache.hadoop如何设置日志级别如何设置日志级别访问:访问:http:/:http:/:如何查看如何查看HDFSHDFS Web Web控制台控制台
17、dfs.name.dir NameNode 元数据存放位置 默认值:使用core-site.xml中的hadoop.tmp.dir/dfs/name dfs.block.size对于新文件切分的大小,单位byte。默认是64M,建议是128M。每一个节点都要指定,包括客户端。默认值:67108864 dfs.data.dirDataNode在本地磁盘存放block的位置,可以是以逗号分隔的目录列表,DataNode循环向磁盘中写入数据,每个DataNode可单独指定与其它DataNode不一样 默认值:$hadoop.tmp.dir/dfs/data HDFS hdfs-site.xml 参数
18、配置参数配置 dfs.namenode.handler.countNameNode用来处理来自DataNode的RPC请求的线程数量建议设置为DataNode数量的10%,一般在10200个之间如设置太小,DataNode在传输数据的时候日志中会报告“connecton refused信息在NameNode上设定 默认值:10 dfs.datanode.handler.countDataNode用来连接NameNode的RPC请求的线程数量取决于系统的繁忙程度设置太小会导致性能下降甚至报错在DataNode上设定 默认值:3 dfs.datanode.max.xcieversDataNode可
19、以同时处理的数据传输连接数默认值:256建议值:4096HDFS hdfs-site.xml 参数配置参数配置 dfs.permissions如果是true则检查权限,否则不检查(每一个人都可以存取文件)于NameNode上设定 默认值:true dfs.datanode.du.reserved在每个卷上面HDFS不能使用的空间大小在每个DataNode上面设定 默认值:0 建议为10737418240,即10G。需要结合MapReduce场景设置。dfs.datanode.failed.volumes.toleratedDataNode可以容忍损块的磁盘数量,超过这个数量DataNode将会
20、离线,所有在这个节点上面的block将会被重新复制默认是0,但是在有多块磁盘的时候一般会增大这个值 dfs.replication在文件被写入的时候,每一块将要被复制多少份默认是3份。建议3份在客户端上设定通常也需要在DataNode上设定HDFS hdfs-site.xml 参数配置参数配置 fs.default.name文件系统的名字。通常是NameNode的hostname与port需要在每一个需要访问集群的机器上指定,包括集群中的节点例如:hdfs:/:9000/fs.checkpoint.dir以逗号分隔的文件夹列表,SecondNameNode用来存储checkpoint imag
21、e文件如果多于一个文件夹,那么都会被写入数据需要在SecondNameNode上设定 默认值:$hadoop.tmp.dir/dfs/namesecondary hadoop.tmp.dirHDFS与本地磁盘的临时文件默认是/tmp/hadoop-$user.name.需要在所有的节点中设定HDFS corecore-site.xml 参数配置参数配置 fs.trash.interval当一个文件被删掉后,它会被放到用户目录的.Trash目录下,而不是立即删掉经过此参数设置的分钟数之后,再删掉数据默认是0,禁用此功能,建议1440(一天)io.file.buffer.size设定在读写数据时的
22、缓存大小,应该为硬件分页大小的2倍默认是4096,建议为65536(64K)HDFS corecore-site.xml 参数配置参数配置HDFS-java api 使用 HDFS 开发基本步骤 HDFS Java API详解 Configuration Path FileSystem Stream、IOUtils HDFS Java API使用场景示例 实例化实例化ConfigurationConfiguration 实例化实例化FileSystemFileSystem根据配置文件选择使用本地或分布式文件系统 文件或目录操作文件或目录操作Stream HDFS HDFS 开发开发基本基本步骤
23、步骤 包 org.apache.hadoop.conf 构造方法public Configuration()调用构造方法Configuration(true)public Configuration(boolean loadDefaults)true:先加载缺省配置文件,再加载用户指定文件(addResource)core-default.xml,core-site.xml以及通过addDefaultResource添加的文件名 false:不加载缺省配置文件,需要通过addResource手动添加 后加载的配置会覆盖先加载的配置 除了被指定为final的public Configuratio
24、n(Configuration other)复制other参数信息ConfigurationConfiguration static void addDefaultResource(String name)添加默认配置文件,配置文件加载的顺序是根据添加的顺序参数是文件名,文件是在classpath中 void addResource(InputStream in)void addResource(Path file)本地文件 void addResource(String name)classpath中的文件 void addResource(URL url)Configuration Con
25、figuration 加载配置文件方法加载配置文件方法 先加载缺省配置文件,再加载用户定义的配置文件 对于每一个文件只加载一次:第一个在classpath出现的 classpath的目录顺序$HADOOP_CONF_DIR$JAVA_HOME/lib/tools.jar如果$HADOOP_HOME目录下有build目录,则添加build下各子目录$HADOOP_HOME/hadoop-core-*.jar$HADOOP_HOME/lib/*.jar用户在hadoop-env.sh中定义的$HADOOP_CLASS_PATH当前作为hadoop jar 参数提交的JAR包配置文件加载顺序配置文件
展开阅读全文