书签 分享 收藏 举报 版权申诉 / 57
上传文档赚钱

类型大数据存储与处理-第四讲课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4106885
  • 上传时间:2022-11-11
  • 格式:PPT
  • 页数:57
  • 大小:1.18MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据存储与处理-第四讲课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 存储 处理 第四 讲课
    资源描述:

    1、HDFS 实战Hadoop Hadoop 运行模式运行模式Hadoop Hadoop 伪分布式安装伪分布式安装HDFSHDFS命令行工具命令行工具HDFSHDFS安全模式安全模式启动、停止启动、停止HDFSHDFS服务服务如何查看如何查看HDFSHDFS日志日志如何查看如何查看HDFS WebHDFS Web控制台控制台HDFSHDFS参数配置参数配置 单机单机 在一个在一个Java进程内模拟进程内模拟Hadoop的各个角色的各个角色 伪分布式伪分布式 由各个由各个Java进程来模拟进程来模拟Hadoop的各个角色的各个角色 集群环境集群环境HadoopHadoop运行模式运行模式Hadoop

    2、 Filesystem shell Hadoop Filesystem shell$HADOOP_HOME_BASE/bin/hadoop fs FS shellFS shell使用使用URIsURIs地址地址Schema:/autority/pathSchema:/autority/path例如hdfs:/namenodehost:port/folder1/folder2file:/home/tcloud/child如果不指定schema,则使用配置文件中的默认地址fs.default.name 可以使用hadoop fs help 查看所有命令HDFS命令行工具命令行工具用途用途显示一个或

    3、多个文件内容到控制台使用方法使用方法hadoop fs-cat URI URI.例子例子:hadoop fs-cat hdfs:/host1:port1/file1 hdfs:/host2:port2/file2hadoop fs-cat file:/file3/user/hadoop/file4catcat用途用途将本地一个或多个文件导入HDFS以上两个命令唯一的不同时copyFromLocal的源只能是本地文件,而put可以读取stdin的数据使用方法使用方法hadoop fs-put/copyFromLocal URI例子例子:hadoop fs-put localfile.txt/us

    4、er/hadoop/hadoopfile.txthadoop fs-put localfile1 localfile2/user/hadoop/hadoopdirhadoop fs-put localfile hdfs:/host:port/hadoop/hadoopfilehadoop fs-put-hdfs:/host:port/hadoop/hadoopfilefromstdinput/copyFromLocalput/copyFromLocal用途用途将HDFS中的一个或多个文件导出到本地文件系统使用方法使用方法hadoop fs-get/copyToLocal-ignorecrc-c

    5、rc URI 例子例子:hadoop fs-get/user/hadoop/hadoopfile localfilehadoop fs-get hdfs:/host:port/user/hadoop/file localfileget/copyToLocalget/copyToLocal用途用途列出文件夹目录信息lsr递归显示文件子目录使用方法使用方法hadoop fs-ls/lsr URI例子例子:ls/lsrls/lsrhadoopmaster$hadoop fs-ls/user/hadoopdrwxr-xr-x -hadoop supergroup 0 2012-05-14 17:24/

    6、user/hadoop/ahadoopmaster$hadoop fs-lsr/user/hadoopdrwxr-xr-x -hadoop supergroup 0 2012-05-14 17:24/user/hadoop/a-rw-r-r-2 hadoop supergroup 47 2012-05-14 17:24/user/hadoop/a/oct.sh-rw-r-r-2 hadoop supergroup 6 2012-05-14 17:24/user/hadoop/a/x.sh用法用法hadoop fsck GENERIC_OPTIONS -move|-delete|-openfor

    7、write-files-blocks-locations|-racks检查dfs的文件的健康状况只能运行在master上fsckfsckhadoopmaster$hadoop fsck/user/hadoopFSCK started by hadoop from/172.16.206.77 for path/user/hadoop at Fri Jun 15 17:11:50 CST 2012./user/hadoop/a/oct.sh:Under replicated blk_-3537883739360629007_1303.Target Replicas is 2 but found 1

    8、 replica(s)./user/hadoop/a/x.sh:Under replicated blk_8664072905926163771_1304.Target Replicas is 2 but found 1 replica(s).fsckfsckStatus:HEALTHY Total size:57697 B Total dirs:5 Total files:6 Total blocks(validated):5(avg.block size 11539 B)Minimally replicated blocks:5(100.0%)Over-replicated blocks:

    9、0(0.0%)Under-replicated blocks:5(100.0%)Mis-replicated blocks:0(0.0%)Default replication factor:2 Average block replication:1.0 Corrupt blocks:0 Missing replicas:2(100.0%)Number of data-nodes:1 Number of racks:1FSCK ended at Fri Jun 15 17:11:50 CST 2012 in 3 milliseconds用法用法hadoop dfsadmin commandha

    10、doop dfsadmin-help 可以列出所有的可用命令主要的有一下几个-safemode 安全模式操作-report 报告集群DFS的运行情况可以使用 hadoop dfsadmin-help 查看所有命令的用法dfsadmindfsadmin指文件系统所处的一种只读的安全模式指文件系统所处的一种只读的安全模式HDFSHDFS启动时会在启动时会在safemodesafemode状态状态相关命令:相关命令:HDFSHDFS的的Safe ModeSafe Mode$hadoop dfsadmin-safemode get#安全模式当前状态信息安全模式当前状态信息$hadoop dfsadmi

    11、n-safemode enter#进入安全模式进入安全模式$hadoop dfsadmin-safemode leave#解除安全模式解除安全模式$hadoop dfsadmin-safemode wait#挂起挂起,直到安全模式结直到安全模式结束束NameNodeNameNode$HADOOP_HOME_BASE/bin/hadoop-daemon.sh start namenodeSecondary NameNodeSecondary NameNode$HADOOP_HOME_BASE/bin/hadoop-daemon.sh start secondarynamenodeDataNode

    12、DataNode同时启动:$HADOOP_HOME_BASE/bin/hadoop-daemons.sh start datanode单台启动:$HADOOP_HOME_BASE/bin/hadoop-daemon.sh start datanodeNameNodeNameNode、Secondary NameNodeSecondary NameNode、DataNode DataNode$HADOOP_HOME_BASE/bin/start-dfs.shHDFSHDFS服务启动服务启动NameNodeNameNode$HADOOP_HOME_BASE/bin/hadoop-daemon.sh

    13、 stop namenodeSecondary NameNodeSecondary NameNode$HADOOP_HOME_BASE/bin/hadoop-daemon.sh stop secondarynamenodeDataNodeDataNode同时关闭:$HADOOP_HOME_BASE/bin/hadoop-daemons.sh stop datanode单台关闭:$HADOOP_HOME_BASE/bin/hadoop-daemon.sh stop datanodeNameNodeNameNode、Secondary NameNodeSecondary NameNode、Data

    14、Node DataNode$HADOOP_HOME_BASE/bin/stop-dfs.shHDFSHDFS服务关闭服务关闭NameNodeNameNode位置:$HADOOP_HOME_BASE/logs/hadoop-$USER-namenode-$HOSTNAME.log 命令:tail-fn 100$HADOOP_HOME_BASE/logs/hadoop-$USER-namenode-$HOSTNAME.log DataNodeDataNode位置:$HADOOP_HOME_BASE/logs/hadoop-$USER-datanode-$HOSTNAME.log命令:tail-fn

    15、 100$HADOOP_HOME_BASE/logs/hadoop-$USER-datanode-$HOSTNAME.log 设置设置Log 文件文件 的大小和数量的大小和数量 修改core-site.xml中的参数 hadoop.logfile.size hadoop.logfile.count如何查看如何查看HDFSHDFS日志日志 查看不同组件的日志级别查看不同组件的日志级别hadoop daemonlog-getlevel host:port packageName 设置组件的日志级别设置组件的日志级别 hadoop daemonlog setlevle host:port packa

    16、geName level“level”DEBUG,INFO,ERROR,FATAL 端口为前台页面的端口,缺省为端口为前台页面的端口,缺省为50070 组件名称组件名称(packageName)org.apache.hadoop.hdfs.server.namenode.NameNode org.apache.hadoop.hdfs.server.datanode.DataNode org.apache.hadoop.hdfs org.apache.hadoop如何设置日志级别如何设置日志级别访问:访问:http:/:http:/:如何查看如何查看HDFSHDFS Web Web控制台控制台

    17、dfs.name.dir NameNode 元数据存放位置 默认值:使用core-site.xml中的hadoop.tmp.dir/dfs/name dfs.block.size对于新文件切分的大小,单位byte。默认是64M,建议是128M。每一个节点都要指定,包括客户端。默认值:67108864 dfs.data.dirDataNode在本地磁盘存放block的位置,可以是以逗号分隔的目录列表,DataNode循环向磁盘中写入数据,每个DataNode可单独指定与其它DataNode不一样 默认值:$hadoop.tmp.dir/dfs/data HDFS hdfs-site.xml 参数

    18、配置参数配置 dfs.namenode.handler.countNameNode用来处理来自DataNode的RPC请求的线程数量建议设置为DataNode数量的10%,一般在10200个之间如设置太小,DataNode在传输数据的时候日志中会报告“connecton refused信息在NameNode上设定 默认值:10 dfs.datanode.handler.countDataNode用来连接NameNode的RPC请求的线程数量取决于系统的繁忙程度设置太小会导致性能下降甚至报错在DataNode上设定 默认值:3 dfs.datanode.max.xcieversDataNode可

    19、以同时处理的数据传输连接数默认值:256建议值:4096HDFS hdfs-site.xml 参数配置参数配置 dfs.permissions如果是true则检查权限,否则不检查(每一个人都可以存取文件)于NameNode上设定 默认值:true dfs.datanode.du.reserved在每个卷上面HDFS不能使用的空间大小在每个DataNode上面设定 默认值:0 建议为10737418240,即10G。需要结合MapReduce场景设置。dfs.datanode.failed.volumes.toleratedDataNode可以容忍损块的磁盘数量,超过这个数量DataNode将会

    20、离线,所有在这个节点上面的block将会被重新复制默认是0,但是在有多块磁盘的时候一般会增大这个值 dfs.replication在文件被写入的时候,每一块将要被复制多少份默认是3份。建议3份在客户端上设定通常也需要在DataNode上设定HDFS hdfs-site.xml 参数配置参数配置 fs.default.name文件系统的名字。通常是NameNode的hostname与port需要在每一个需要访问集群的机器上指定,包括集群中的节点例如:hdfs:/:9000/fs.checkpoint.dir以逗号分隔的文件夹列表,SecondNameNode用来存储checkpoint imag

    21、e文件如果多于一个文件夹,那么都会被写入数据需要在SecondNameNode上设定 默认值:$hadoop.tmp.dir/dfs/namesecondary hadoop.tmp.dirHDFS与本地磁盘的临时文件默认是/tmp/hadoop-$user.name.需要在所有的节点中设定HDFS corecore-site.xml 参数配置参数配置 fs.trash.interval当一个文件被删掉后,它会被放到用户目录的.Trash目录下,而不是立即删掉经过此参数设置的分钟数之后,再删掉数据默认是0,禁用此功能,建议1440(一天)io.file.buffer.size设定在读写数据时的

    22、缓存大小,应该为硬件分页大小的2倍默认是4096,建议为65536(64K)HDFS corecore-site.xml 参数配置参数配置HDFS-java api 使用 HDFS 开发基本步骤 HDFS Java API详解 Configuration Path FileSystem Stream、IOUtils HDFS Java API使用场景示例 实例化实例化ConfigurationConfiguration 实例化实例化FileSystemFileSystem根据配置文件选择使用本地或分布式文件系统 文件或目录操作文件或目录操作Stream HDFS HDFS 开发开发基本基本步骤

    23、步骤 包 org.apache.hadoop.conf 构造方法public Configuration()调用构造方法Configuration(true)public Configuration(boolean loadDefaults)true:先加载缺省配置文件,再加载用户指定文件(addResource)core-default.xml,core-site.xml以及通过addDefaultResource添加的文件名 false:不加载缺省配置文件,需要通过addResource手动添加 后加载的配置会覆盖先加载的配置 除了被指定为final的public Configuratio

    24、n(Configuration other)复制other参数信息ConfigurationConfiguration static void addDefaultResource(String name)添加默认配置文件,配置文件加载的顺序是根据添加的顺序参数是文件名,文件是在classpath中 void addResource(InputStream in)void addResource(Path file)本地文件 void addResource(String name)classpath中的文件 void addResource(URL url)Configuration Con

    25、figuration 加载配置文件方法加载配置文件方法 先加载缺省配置文件,再加载用户定义的配置文件 对于每一个文件只加载一次:第一个在classpath出现的 classpath的目录顺序$HADOOP_CONF_DIR$JAVA_HOME/lib/tools.jar如果$HADOOP_HOME目录下有build目录,则添加build下各子目录$HADOOP_HOME/hadoop-core-*.jar$HADOOP_HOME/lib/*.jar用户在hadoop-env.sh中定义的$HADOOP_CLASS_PATH当前作为hadoop jar 参数提交的JAR包配置文件加载顺序配置文件

    26、加载顺序void set(String name,String value)void setBoolean(String name,boolean value)void setInt(String name,String value)void setLong(String name,long value)void setFloat(String name,float value)void setIfUnset(String name,String value)void setBooleanIfUnset(String name,boolean value)String get(String n

    27、ame)boolean getBoolean(String name,boolean defaultValue)Configuration Configuration 设置设置/获取参数方法获取参数方法 包 org.apache.hadoop.fs 构造方法public Path(String pathString)public Path(URI aUri)public Path(Path parent,Path child)public Path(String parent,String child)参数parent指定父目录,参数child指定父目录下的文件或子目录public Path(

    28、String scheme,String authority,String path)scheme:协议类型,譬如hdfs、file、s3 authority:认证信息,譬如user:pwdhost:port path:文件或目录名如参数不符合RFC2396,则抛出异常Path Path int depth()返回路径的深度String getName()返回路径上最后的资源名称Path getParent()返回父目录,如果已是根目录则返回nullPath suffix(String suffix)参数suffix给Path增加后缀 返回加完后缀的Path实例getFileSystem(Co

    29、nfiguration conf)返回该Path所属的文件系统实例Path Path 常用常用方法方法 包org.apache.hadoop.fs 构造方法protected FileSystem()FileSystem是一个抽象类,不能通过new 来创建通过静态get(Configuration conf)方法获得FileSystem子类的实例 fs.$scheme.implorg.apache.hadoop.hdfs.DistributedFileSystem 主要子类LocalFileSystem 本地文件系统DistributedFileSystem 分布式文件系统FileSystem

    30、FileSystem boolean createNewFile(Path f)不会覆盖已有文件创建成功返回true,失败返回false FSDataOutputStream create(Path f)覆盖已有文件创建文件并返回输出流 FSDataOutputStream create(Path f,boolean overwrite)创建文件并返回输出流 FSDataOutputStream create(Path f,boolean overwrite,int buffer)FSDataOutputStream create(Path f,boolean overwrite,int bu

    31、ffer,short replication,long blockSize)创建文件创建文件 FSDataInputStream open(Path f)FSDataInputStream open(Path f,int bufferSize)返回输入流如果文件不存在会抛出异常不指定bufferSize时,会从Configuration中读取io.file.buffer.size,默认为4096字节打开文件打开文件 FSDataOutputStream append(Path f)FSDataOutputStream append(Path f,int bufferSize)块不足64M时,会

    32、补足到64M 块达到64M之前,该块不可见,ls看不到该块新增的大小,也无法读取 不能同时多个writer追加同一个文件文件追加文件追加 void copyFromLocalFile(Path src,Path dst)目标文件存在,直接覆盖 void copyFromLocalFile(boolean delsrc,Path src,Path dst)根据参数delsrc,如果是true,拷贝完成之后直接删除源文件 void copyFromLocalFile(boolean delsrc,boolean overwrite,Path src,Path dst)void copyFromLo

    33、calFile(boolean delsrc,boolean overwrite,Path srcs,Path dst)参数srcs指定多个本地文件或文件夹参数dst指定HDFS文件夹 void moveFromLocalFile(Path src,Path dst)void moveFromLocalFile(Path srcs,Path dst)从本地拷贝文件到从本地拷贝文件到HDFSHDFS void copyToLocalFile(Path src,Path dst)void copyToLocalFile(boolean delsrc,Path src,Path dst)void m

    34、oveToLocalFile(Path src,Path dst)没有多文件拷贝函数 会覆盖已存在的本地文件dst从从HDFSHDFS拷贝文件到本地拷贝文件到本地 boolean mkdirs(Path f)boolean mkdirs(Path f,FsPermission permission)static boolean mkdirs(FileSystem fs,Path dir,FsPermission permission)支持多级目录同时创建(类似mkdir-p)默认权限是755成功返回true 目录权限的含义 r+x:获取文件列表 w:创建(删除)文件/子目录 创建目录创建目录

    35、boolean delete(Path f,boolean recursive)删除文件或目录如果f是目录,则参数recursive指定是否要递归删除 recursive是false,并且f不为空,会抛出异常删除成功返回truef不存在时,会返回false boolean deleteOnExit(f)当关闭FileSystem时,才会删除如f是目录,则递归删除子目录和文件 boolean rename(Path src,Path dst)删除及重命名删除及重命名FileStatus listStatus(Path f)FileStatus listStatus(Path dirs)FileS

    36、tatus listStatus(Path f,PathFilter filter)FileStatus listStatus(Path dir,PathFilter filter)列出文件或目录的信息参数dir指定要查询的多个目录参数filter指定需要过滤规则PathFilter是一个接口,需要实现boolean accept(Path path)方法,返回false,在返回结果中会过滤掉只返回列出指定目录下的文件或目录信息 FileStatus信息包括:绝对路径文件大小(单位:字节)文件访问时间块大小、复制份数文件所属用户、组、访问权限获取文件或目录信息获取文件或目录信息 void se

    37、tOwner(Path p,String username,String groupname)设置文件或目录所属用户及组参数p指定文件或目录参数username,设置此文件或目录的所属用户只返回列出指定目录下的文件或目录信息 void setPermission(Path p,FsPermission permission)设置文件或目录权限参数p指定文件或目录参数permission,指定权限,权限同linux权限雷同 void setReplication(Path f,short replication)设置文件复制份数参数f指定文件参数replication指定复制份数设置设置文件或目

    38、录属性文件或目录属性 void setTimes(Path f,long mtime,long atime)设置文件的修改及访问时间参数f指定文件参数mtime,修改时间参数atime,访问时间设置设置文件或目录文件或目录属性属性 包org.apache.hadoop.fs 继承 java.io.DataInputStream 构造方法public FSDataInputStream(InputStream in)输入流对象实例化 in参数,输入流的来源 一般输入流对象,通过FileSystem.open方法获得HDFSHDFS输入流输入流 包org.apache.hadoop.fs 继承 j

    39、ava.io.DataOutputStream 构造方法public FSDataOutputStream(OutputStream out,FileSystem.Statistics stats)public FSDataOutputStream(OutputStream out,FileSystem.Statistics stats,long startPosition)输出流对象实例化 out参数,输出流 stats参数是对输出流的相关的计数,如bytes read,bytes writtenstats是FileSystem.Statistics对象 startPosition参数,开始

    40、写入位置 一般输出流对象,通过FileSystem.create方法HDFSHDFS输出流输出流 包org.apache.hadoop.fs 构造方法public IOUtils()I/O帮助类,提供的都是静态方法,不需要实例化 IOUtils IOUtils 构造方法构造方法public static void copyBytes(InputStream in,outputStream out,Configuration conf)public static void copyBytes(InputStream in,outputStream out,Configuration conf,b

    41、oolean close)从输入流拷贝到输出流参数in输入流实例参数out输出流实例参数conf,通过io.file.buffer.size获取缓存大小没有设置io.file.buffer.size,缓存默认为4096bytes参数close指定是否需要拷贝完成后,由此方法关闭输入输出流IOUtils IOUtils 拷贝流方法拷贝流方法 public static void copyBytes(InputStream in,outputStream out,int buffSize)public static void copyBytes(InputStream in,outputStrea

    42、m out,int buffSize,boolean close)public static void copyBytes(InputStream in,outputStream out,int length,int buffSize,boolean close)从输入流拷贝制定字节大小到输出流参数in输入流实例参数out输出流实例参数length指定要拷贝的字节大小参数buffSize指定输入输出缓冲参数close指定是否需要拷贝完成后,由此方法关闭输入输出流IOUtils IOUtils 拷贝流方法拷贝流方法 HDFS依赖Jar包来源集群中已部署的Hadoop路径下$HADOOP_HOME

    43、_BASE/hadoop-core-1.0.0.jar$HADOOP_HOME_BASE/lib/*.jar Java Doc位置集群中已部署Hadoop路径下$HADOOP_HOME_BASE/docs/api/index.html HDFS HDFS 依赖的依赖的jarjar包及包及Java DocJava Doc位置位置创建创建HDFSHDFS文件文件(createNewFile)(createNewFile)Configuration config=new Configuration();FileSystem hdfs=FileSystem.get(config);Path path=

    44、new Path(fileName);boolean isCreated=hdfs.createNewFile(path);从本地拷贝文件到从本地拷贝文件到HDFS(copyFromLocalFile)HDFS(copyFromLocalFile)Configuration config=new Configuration();FileSystem hdfs=FileSystem.get(config);Path srcPath=new Path(srcFile);Path dstPath=new Path(dstFile);hdfs.copyFromLocalFile(srcPath,dst

    45、Path)从从HDFSHDFS读取文件读取文件(open)(open)Configuration config=new Configuration();FileSystem hdfs=FileSystem.get(config);Path path=new Path(dstFile);FSDataInputStream inputStream=hdfs.open(path);Text line=new Text()LineReader liReader =new LineReader(inputStream);while(liReader.readLine(line)0)System.out.

    46、println(line);inputStream.close();追加方式写入追加方式写入HDFSHDFS文件文件(append)(append)Configuration config=new Configuration();FileSystem hdfs=FileSystem.get(config);Path path=new Path(dstFile);FSDataOutputStream out=hdfs.append(path);/在文件尾部,追加数据out.close();列出目录下的所有文件列出目录下的所有文件(listStatus)(listStatus)Configurat

    47、ion config=new Configuration();FileSystem hdfs=FileSystem.get(config);Path dir=new Path(dirName);FileStatus fileStatus=hdfs.listStatus(new Pathdir);HDFS命令 HDFS中的文件权限:读权限(r)、写权限(w)执行权限(x)(控制对目录下的文件和子目录的访问)HDFS的命令行格式:hadoop fs cmd cmd:具体的指令内容 :一系列可变的参数命令catchmodchowncopyFromLocalcopyToLocalcpgetlsmkdi

    48、rmoveFromLocalmvputrmtail说明显示非压缩文件的内容改变文件或目录的访问权限变更文件或目录的所有者从本地复制文件到HDFS文件系统中从HDFS复制文件到本地复制文件或目录从HDFS复制文件到本地列出文件和子目录创建目录将文件或目录从本地移动到HDFS将文件或目录源路径移动到目的路径将文件或目录从本地移动复制HDFS删除文件或空目录显示文件的最后1KB数据示例-cat hdfs:/ 777 hdfs:/ user1 hdfs:/ localf1/usr/hadoop/file1-copyToLocal/usr/hadoop/file1 localf1-cp/usr/hado

    49、op/file1/usr/hadoop/file2-get/usr/hadoop/file1 localf1-ls/usr/hadoop/file1-mkdir/usr/hadoop/dir2-moveFromLocal localf1/usr/hadoop/file1-mv/usr/hadoop/file1/usr/hadoop/file2-put localfile1/usr/hadoop/file1-rm/usr/hadoop/dir1-tail/usr/hadoop/file1HDFSJava API 复杂操作时,需要用到API方式对文件进行访问(Java、C、HTTP)示例:合并多个

    50、本地话单文件写入HDFS1:public class MergeCDRFiles2:public static void main(String args)throws IOException 3:4:5:6:7:8:Configuration conf=new Configuration();FileSystem localInputFS=FileSystem.getLocal(conf);FileSystem hdfsOutputFS=FileSystem.get(conf);Path inputLocalDir=new Path(args0);Path hdfsOutputFile=ne

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据存储与处理-第四讲课件.ppt
    链接地址:https://www.163wenku.com/p-4106885.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库