大数据技术分享课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据技术分享课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 分享 课件
- 资源描述:
-
1、大数据技术分享0102数据存储/Hbase,MongoDB03数据分析/Hive,MR,R04实时计算/Storm,Spark05数据传输/Sqoop,Kafka演讲提纲06数据采集/Flume,KafkaDPI大数据架构NoSqlNoSql数据库NoSql(Not Only Sql)hbaseMongoDBLucene/Solr等HbaseHbase是什么HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HB
2、ase进行操作,如下图所示:HRegionServerHRegionServer、HRegionHRegion、HmemcacheHmemcache、HlogHlog、HStoreHStore之间的关系HBaseHBase表中的数据与HRegionServerHRegionServer的分布关系为什么采用HBaseHBase?HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式,这样方面读写大数据的数据。hbase是基于列存储,查询速度为秒级一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的,因此
3、用户可以给行定义各种不同的列什么是列存储?什么是列存储?列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因 此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就 更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别:MySQLMySQL中现有的表结构迁移至HBaseHBase中的表结构原来系统中有2张表blogtable和comment表,采用HBase后只有一张blogtable表,如果按照
4、传统的RDBMS的话,blogtable表中的列是固定的,比如schema 定义了Author,Title,URL,text等属性,上线后表字段是不能动态增加的。但是如果采用列存储系统,比如Hbase,那么我们可以定义blogtable表,然后定义info 列族,User的数据可以分为:info:title,info:author,info:url 等,如果后来你又想增加另外的属性,这样很方便只需要 info:xxx 就可以了。对于Row key你可以理解row key为传统RDBMS中的某一个行的主键,Hbase是不支持条件查询以及Order by等查询,因此Row key的设计就要根据你系
5、统的查询需求来设计了额。Hbase中的记录是按照rowkey来排序的,这样就使得查询变得非常快。hivehive简介Hive是基于hadoop构建的数据仓库基础架构,通过提供一系列的工具,使得用户能够方便的做数据ETL,数据结构化,并针对存放在hadoop上的海量数据进行查询和分析hive的设计目标是:可伸缩、可扩展、容错及输入格式松耦合。数据单元按照数据的粒度大小,hive数据可以被组织成:1)databases:避免不同表产生命名冲突的一种命名空间2)tables:具有相同scema的同质数据的集合partitions:一个表可以有一个或多个决定数据如何存储的partition keybu
展开阅读全文