大数据采集及预处理课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据采集及预处理课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 采集 预处理 课件
- 资源描述:
-
1、第三章大数据采集及预处理3.1 大数据采集3.2数据预处理3.3常用ETL工具 习题3.1 大数据采集第三章 大数据采集及预处理 大数据采集概念大数据采集概念 数据采集(DAQ)又称数据获取,通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。常用的数据采集的方式大数据的采集通常采用多个数据库来接收终端数据,包括智能硬件端、多种传感器端、网页端、移动APP应用端等,并且可以使用数据库进行简单的处理工作。3.1 大数据采集大数据采集第三章 大数据采集及预处理数据抓取01数据导入02物联网传感设备自动信息采集033.1 大数据采集
2、大数据采集第三章 大数据采集及预处理大数据采集的研究分类大数据采集的研究分类智能感知层智能感知层包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越多,相应对于这类的研究和应用也会越来越重要。基础支撑层基础支撑层提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点要解决分布式虚
3、拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。3.1 大数据采集大数据采集第三章 大数据采集及预处理常用日志系统的采集工具常用日志系统的采集工具考考数据类型数据类型Flum是Cloudera提供的一个可靠性和可用性都非常高的日志系统,采用分布式的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume具有通过对数据进行简单的处理,并写到各种数据接受方的能力。ScribeScribe是facebook开源的日志收集系统,它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NF
4、S,分布式文件系统等)上,便于进行集中统计分析处理。它最重要的特点是容错性好。ChukwaApache 的开源项目 hadoop,被业界广泛认可,很多大型企业都有了各自基于 hadoop 的应用和扩展。当 1000+以上个节点的 hadoop 集群变得常见时,Apache 提出了用chukwa的方法来解决。KafkaKafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理大规模的网站中的所有动作流数据。具有高稳定性、高吞吐量、支持通过Kafka服务器和消费机集群来分区消息和支持Hadoop并行数据加载的特性。ChukwaChukwa主要的部件为:主要的部件为:1.Agents:负责采集最原
5、始的数据:负责采集最原始的数据,并发送给并发送给 collectors 2.Adaptor:直接采集数据的接口和工具:直接采集数据的接口和工具,一个一个 agent 可以管可以管理多个理多个 adaptor 的数据采集的数据采集 3.Collectors:负责收集:负责收集 agents 收送来的数据收送来的数据,并定时写入集并定时写入集群中群中 4.Map/reduce jobs:定时启动:定时启动,负责把集群中的数据分类、负责把集群中的数据分类、排序、去重和合并排序、去重和合并 5.HICC:负责数据的展示:负责数据的展示013.1 大数据采集大数据采集第三章 大数据采集及预处理FlumF
6、lum1)在数据处理方面在数据处理方面:Flume提供对数据进行简单处理,并写到各种数据接受方处。他提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统),支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力2)在工作方式上:)在工作方式上:Flume-og采用了多Master的形式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存系统配置的数据,ZooKeeper本身具有可保证配置数据的一致性和高可用,同时,在配置数据发生变化时,ZooKeeper可
7、以通知Flume Master节点。Flume Master间使用gossip协议同步数据。023)Flume-ng取消了集中管理配置的 Master 和 Zookeeper,变为一个纯粹的传输工具。Flume-ng还有一个不同点是读入数据和写出数据现在由不同的工作线程处理(称为 Runner)。在 Flume-og 中,读入线程同样做写出工作(除了故障重试)。如果写出慢的话(不是完全失败),它将阻塞 Flume 接收数据的能力。这种异步的设计使读入线程可以顺畅的工作而无需关注下游的任何问题。3.1 大数据采集大数据采集第三章 大数据采集及预处理ScribeScribeScribe为日志收集提
8、供了一种容错且可扩展的方案。Scribe可以从不同数据源,不同机器上收集日志,然后将它们存入一个中央存储系统,便于进一步处理。当采用HDFS作为中央系统时,可以进一步使用Hadoop进行 处 理 数 据,于 是 就 有 了Scribe+HDFS+MapReduce方案。033.1 大数据采集大数据采集第三章 大数据采集及预处理KafkaKafka的的producerproducer,brokerbroker和和consumerconsumer三种主要角色三种主要角色(1)ProducerProducer的任务是向的任务是向broker发送数据。为其提供发送数据。为其提供了两种了两种produc
9、er接口,一种是接口,一种是low_level接口,接口,使用这种接口会向特定的使用这种接口会向特定的broker的某个的某个topic下下的某个的某个partition发送数据;另一种那个是发送数据;另一种那个是highlevel接口,这种接口支持同步接口,这种接口支持同步/异步发送数据,异步发送数据,基于基于zookeeper的的broker自动识别和负载均衡。自动识别和负载均衡。04(3)Consumerconsumer的作用是将日志信息加载到中央存储的作用是将日志信息加载到中央存储系统上。系统上。(2)BrokerBroker采取了多种不同的策略来提高对数据处采取了多种不同的策略来提高
10、对数据处理的效率。理的效率。3.1 大数据采集大数据采集第三章 大数据采集及预处理第三章 大数据采集及预处理 系统日志采集方法系统日志采集方法 3.1 大数据采集大数据采集高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。常用的日志系统有Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible和LinkedIn的Kafka这些工具大部分采用分布式架构,来满足大规模日志采集的需求ChukwaChukwa的日志采集流程的日志采集流程模拟增量日志环境模拟增量日志环境/home/matrix/Program/project/log/testlog-10.0.
11、0.10 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.11 17/Oct/2011:23:20:40+0800 GET/izmg/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.12 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSI
12、E 9.0;Windows NT 6.1;)-10.0.0.13 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.14 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.15 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP
13、/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.16 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.17 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.18 17/Oct/2011:23:20:40+0
14、800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.19 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)013.1 大数据采集大数据采集第三章 大数据采集及预处理ChukwaChukwa的日志采集流程的日志采集流程模拟增量日志环境模拟增量日志环境/home/matrix/Program/project/log/logtest-192
15、.168.0.10 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.11 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.12 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozil
16、la/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.13 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.14 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.15 17/Oct/2011:23:20:40+0800 GET/
17、img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.16 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.17 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168
18、.0.18 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.19 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)013.1 大数据采集大数据采集第三章 大数据采集及预处理ChukwaChukwa的日志采集流程的日志采集流程模拟增量日志环境模拟增量日志环境/home/matrix/
19、Program/project/log/write_log.sh#!/bin/bash-cat/home/matrix/Program/project/log/testlog /home/matrix/Program/project/log/testlog1cat/home/matrix/Program/project/log/logtest /home/matrix/Program/project/log/testlog2/etc/crontab*/1*matrix/home/matrix/Program/project/log/write_log.sh$CHUKWA_HOME/conf/i
20、nitial_adaptors add filetailer.CharFileTailingAdaptorUTF8 TestLog1 0/home/matrix/Program/project/log/testlog1 0add filetailer.CharFileTailingAdaptorUTF8 TestLog2 0/home/matrix/Program/project/log/testlog2 0013.1 大数据采集大数据采集第三章 大数据采集及预处理 chukwachukwa的目录结构的目录结构 /chukwa/archivesProcessing/dataSinkArchiv
21、es/demuxProcessing/finalArchives/logs/postProcess/repos/rolling/temp/023.1 大数据采集大数据采集第三章 大数据采集及预处理(1)Adaptors使用tail方式监测日志增量;(2)Agent发送数据到collectors;(3)Collectors将各agent收集的数据在/chukwa/logs/目录下写成*.chukwa文件;(4)当*.chukwa文件大小达到阀值或达到一定时间间隔时将其改名为*.done文件;(5)Demux进程将/chukwa/logs/*.done文件转移到/chukwa/demuxProce
22、ssing/mrInput/目录下进行处理;(6)PostProcess进程将demux进程处理完成的*.evt文件转储到/chukwa/repos/目录下;(7)可以根据PostProcess进程按照日志类型在/chukwa/rolling/目录下生成的文件进行按天或按小时的数据合并。3.1 大数据采集大数据采集第三章 大数据采集及预处理 C Chukwahukwa的处理过程的处理过程 03FlumeFlume日志采集流程日志采集流程(1)从整体上描述代理从整体上描述代理agent中中sources、sinks、channels所涉及到的组件;所涉及到的组件;#Name the compon
展开阅读全文