书签 分享 收藏 举报 版权申诉 / 20
上传文档赚钱

类型hadoop技术基础课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4376736
  • 上传时间:2022-12-03
  • 格式:PPT
  • 页数:20
  • 大小:3.65MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《hadoop技术基础课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    hadoop 技术 基础 课件
    资源描述:

    1、1ppt课件2ppt课件3ppt课件4ppt课件Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架,程序员可以借助Hadoop 编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。Hadoop 还提供一个分布式文件系统(HDFS)及分布式数据库(HBase)用来将数据存储或部署到各个计算节点上。所以,可以大致认为:Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)5ppt课件Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。1、Hadoop HDFS是Google G

    2、FS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的 Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是 一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。6ppt课件Hadoop主要由HDFS、MapRe

    3、duce、Hive和HBase等组成。2、Hadoop MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由 Map任务(task)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储 在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。7ppt课件Hadoop主要由HDFS、MapReduce、Hive和HBase等

    4、组成。3、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。8ppt课件Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。4、HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数

    5、据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个 ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在 HBase中数据按主键排序,同时表按主键划分为多个Hregion。9ppt课件10ppt课件11ppt课件HOSTNAME133.128.88.200PORT22USERNAMEhadoop或者通过其他机器跳转到133.128.88.200下ssh hadoophadoop-m01或ssh hadoop133.128.88.200键入回车,输入密码。12ppt课件通过hive命令登陆数据库show

    6、 databases;显示当前的所有数据库(同oracle数据库的用户);use dw;切换数据库;show functions;显示所有的函数;show tables;查看当前数据库下所有的表;show tables*tg*;模糊匹配当前数据库下所有的表;13ppt课件CREATE EXTERNAL TABLE tg_cdr_noinfo_fix_d(call_duration int,otherfee double,source_type string,cycle_tag string)PARTITIONED BY(day_part string)ROW FORMAT DELIMITED

    7、FIELDS TERMINATED BY,STORED AS INPUTFORMAT org.apache.hadoop.mapred.TextInputFormat OUTPUTFORMAT org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormatLOCATION hdfs:/beh/data/stage2/tg_cdr_noinfo_fix_dTBLPROPERTIES(last_modified_by=hadoop,last_modified_time=1464585329,transient_lastDdlTime=14645

    8、85329)创建外部表字段类型表名表分区14ppt课件CREATE TABLE dwa_v_d_cus_cb_sing_use_add(day_id string COMMENT 日期,area_id string COMMENT 地市,city_id string COMMENT 区县,user_id string COMMENT 订购实例标识,toll_nums double COMMENT 本地长途次数,use_status string COMMENT 用户使用类型 dim.dim_4G_use_status)COMMENT cBSS业务单用户累计使用衍生信息(日)(从入网开始)PAR

    9、TITIONED BY(day_part string)ROW FORMAT DELIMITED FIELDS TERMINATED BY,STORED AS INPUTFORMAT org.apache.hadoop.hive.ql.io.RCFileInputFormat OUTPUTFORMAT org.apache.hadoop.hive.ql.io.RCFileOutputFormatLOCATION hdfs:/beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_addTBLPROPERTIES(transient_lastD

    10、dlTime=1461115949);创建表字段类型及注释表名表注释表分区15ppt课件表的相关命令show create table dw.dwa_v_d_cus_cb_sing_use_add;查询建表脚本;show partitions dw.dw_v_u_k_cdr_gprs_cb;查看表分区select*from dw.dw_v_u_k_cdr_gprs_cb where day_part=20160101 limit 1;查询数据insert overwrite table dim.dim_cbss_deposit 清表插入数据insert into table 插入数据inser

    11、t overwrite table dw.dw_v_deposit_info_cb partition(day_part=$v_day);插入分区16ppt课件导出方法一:insert overwrite local DIRECTORY$check_log_dir ROW FORMAT DELIMITED FIELDS TERMINATED BY$v_split select$v_column_list from$v_table t where$v_part=$v_date;$v_hqlsh$v_hql 2&1|tee$v_export_log/dev/null导出方法二:hive-S-ese

    12、lect 1;$directory17ppt课件Hadoop查看目录空间使用情况 命令:hadoop fs-count-q 统计出目录数、文件数及指定路径下文件的大小,输出列为:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.带上-q选项后的输出列为:QUOTA,REMAINING_QUATA,SPACE_QUOTA,REMAINING_SPACE_QUOTA,DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.18ppt课件Hdfs相关命令hadoop fs ls/列出当前目录有哪些子目录,有哪些文件。hadoop fs-count/hadoop fs mkidr/test 在Hadoop文件系统当中,创建一个test目录hadoop fs rmr/test 在Hadoop文件系统当中,创建一个test目录hadoop fs get/filename 从Hadoop文件系统当中,获取一个文件到本地的文件系统。hadoop fs put srcfile/desfile 从本地的文件系统上传一个文件到Hadoop文件系统中。19ppt课件20ppt课件

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:hadoop技术基础课件.ppt
    链接地址:https://www.163wenku.com/p-4376736.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库