书签 分享 收藏 举报 版权申诉 / 23
上传文档赚钱

类型大数据技术分享课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3583957
  • 上传时间:2022-09-21
  • 格式:PPTX
  • 页数:23
  • 大小:922.20KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据技术分享课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 技术 分享 课件
    资源描述:

    1、大数据技术分享0102数据存储/Hbase,MongoDB03数据分析/Hive,MR,R04实时计算/Storm,Spark05数据传输/Sqoop,Kafka演讲提纲06数据采集/Flume,KafkaDPI大数据架构NoSqlNoSql数据库NoSql(Not Only Sql)hbaseMongoDBLucene/Solr等HbaseHbase是什么HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HB

    2、ase进行操作,如下图所示:HRegionServerHRegionServer、HRegionHRegion、HmemcacheHmemcache、HlogHlog、HStoreHStore之间的关系HBaseHBase表中的数据与HRegionServerHRegionServer的分布关系为什么采用HBaseHBase?HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式,这样方面读写大数据的数据。hbase是基于列存储,查询速度为秒级一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的,因此

    3、用户可以给行定义各种不同的列什么是列存储?什么是列存储?列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因 此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就 更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别:MySQLMySQL中现有的表结构迁移至HBaseHBase中的表结构原来系统中有2张表blogtable和comment表,采用HBase后只有一张blogtable表,如果按照

    4、传统的RDBMS的话,blogtable表中的列是固定的,比如schema 定义了Author,Title,URL,text等属性,上线后表字段是不能动态增加的。但是如果采用列存储系统,比如Hbase,那么我们可以定义blogtable表,然后定义info 列族,User的数据可以分为:info:title,info:author,info:url 等,如果后来你又想增加另外的属性,这样很方便只需要 info:xxx 就可以了。对于Row key你可以理解row key为传统RDBMS中的某一个行的主键,Hbase是不支持条件查询以及Order by等查询,因此Row key的设计就要根据你系

    5、统的查询需求来设计了额。Hbase中的记录是按照rowkey来排序的,这样就使得查询变得非常快。hivehive简介Hive是基于hadoop构建的数据仓库基础架构,通过提供一系列的工具,使得用户能够方便的做数据ETL,数据结构化,并针对存放在hadoop上的海量数据进行查询和分析hive的设计目标是:可伸缩、可扩展、容错及输入格式松耦合。数据单元按照数据的粒度大小,hive数据可以被组织成:1)databases:避免不同表产生命名冲突的一种命名空间2)tables:具有相同scema的同质数据的集合partitions:一个表可以有一个或多个决定数据如何存储的partition keybu

    6、ckets(或clusters):在同一个partition中的数据可以根据某个列的hash值分为多个bucket。partition和bucket并非必要,但是它们能大大加快数据的查询速度。数据类型(1)简单类型:TINYINT-1 byte integerSMALLINT-2 byte integerINT-4 byte integerBIGINT-8 byte BOOLEAN-TRUE/FALSEFLOAT-单精度DOUBLE-双精度STRING-字符串集合(2 2)复杂类型:Structs:structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCTa IN

    7、T;b INT,我们可以通过c.a来访问域a。Maps(Key-Value对):访问指定域可以通过element name进行,例如,一个Map M包含了一个group-gid的k-v对,gid的值可以通过Mgroup来获取。Arrays:array中的数据为相同类型,例如,假如array A中元素a,b,c,则A1的值为b。内建运算符和函数 包括关系运算符(A=B,A!=B,AB等等)算术运算符(A+B,A*B,A&B,A|B等等)逻辑运算符(A&B,A|B等等)复杂类型上的运算符(An,Mkey,S.x)各种内建函数。语言能力 hive查询语言提供基本的类sql操作,这些操作基于table

    8、和partition,包括:1.使用where语句过滤制定行2.使用select查找指定列 3.join两张table或多张表 4.group by 5.一个表的查询结果存入另一张表6.将一个表的内容存入本地目录7.将查询结果存储到hdfs上8.管理table和partition(creat、drop、alert)9.hive提供jdbc功能,方便从关系型数据库中读取数据HiveHive和普通数据库的区别由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。SparkSpark是什么?参考spark学习.ppt由于Spark是由Scala语言编写的,学习Spark首先要有

    9、Scala基础Scala的学习可参考以下学习网站http:/zh.scala- 02,2022人生得意须尽欢,莫使金樽空对月。15:16:4715:16:4715:168/2/2022 3:16:47 PM安全象只弓,不拉它就松,要想保安全,常把弓弦绷。22.8.215:16:4715:16Aug-222-Aug-22加强交通建设管理,确保工程建设质量。15:16:4715:16:4715:16Tuesday,August 02,2022安全在于心细,事故出在麻痹。22.8.222.8.215:16:4715:16:47August 2,2022踏实肯干,努力奋斗。2022年8月2日下午3时1

    10、6分22.8.222.8.2追求至善凭技术开拓市场,凭管理增创效益,凭服务树立形象。2022年8月2日星期二下午3时16分47秒15:16:4722.8.2严格把控质量关,让生产更加有保障。2022年8月下午3时16分22.8.215:16August 2,2022作业标准记得牢,驾轻就熟除烦恼。2022年8月2日星期二15时16分47秒15:16:472 August 2022好的事情马上就会到来,一切都是最好的安排。下午3时16分47秒下午3时16分15:16:4722.8.2一马当先,全员举绩,梅开二度,业绩保底。22.8.222.8.215:1615:16:4715:16:47Aug-22牢记安全之责,善谋安全之策,力务安全之实。2022年8月2日星期二15时16分47秒Tuesday,August 02,2022相信相信得力量。22.8.22022年8月2日星期二15时16分47秒22.8.2谢谢大家!谢谢大家!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据技术分享课件.pptx
    链接地址:https://www.163wenku.com/p-3583957.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库