书签 分享 收藏 举报 版权申诉 / 47
上传文档赚钱

类型大数据采集及预处理课件.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:5193120
  • 上传时间:2023-02-16
  • 格式:PPTX
  • 页数:47
  • 大小:3.12MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据采集及预处理课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 采集 预处理 课件
    资源描述:

    1、第三章大数据采集及预处理3.1 大数据采集3.2数据预处理3.3常用ETL工具 习题3.1 大数据采集第三章 大数据采集及预处理 大数据采集概念大数据采集概念 数据采集(DAQ)又称数据获取,通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。常用的数据采集的方式大数据的采集通常采用多个数据库来接收终端数据,包括智能硬件端、多种传感器端、网页端、移动APP应用端等,并且可以使用数据库进行简单的处理工作。3.1 大数据采集大数据采集第三章 大数据采集及预处理数据抓取01数据导入02物联网传感设备自动信息采集033.1 大数据采集

    2、大数据采集第三章 大数据采集及预处理大数据采集的研究分类大数据采集的研究分类智能感知层智能感知层包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越多,相应对于这类的研究和应用也会越来越重要。基础支撑层基础支撑层提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点要解决分布式虚

    3、拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。3.1 大数据采集大数据采集第三章 大数据采集及预处理常用日志系统的采集工具常用日志系统的采集工具考考数据类型数据类型Flum是Cloudera提供的一个可靠性和可用性都非常高的日志系统,采用分布式的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume具有通过对数据进行简单的处理,并写到各种数据接受方的能力。ScribeScribe是facebook开源的日志收集系统,它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NF

    4、S,分布式文件系统等)上,便于进行集中统计分析处理。它最重要的特点是容错性好。ChukwaApache 的开源项目 hadoop,被业界广泛认可,很多大型企业都有了各自基于 hadoop 的应用和扩展。当 1000+以上个节点的 hadoop 集群变得常见时,Apache 提出了用chukwa的方法来解决。KafkaKafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理大规模的网站中的所有动作流数据。具有高稳定性、高吞吐量、支持通过Kafka服务器和消费机集群来分区消息和支持Hadoop并行数据加载的特性。ChukwaChukwa主要的部件为:主要的部件为:1.Agents:负责采集最原

    5、始的数据:负责采集最原始的数据,并发送给并发送给 collectors 2.Adaptor:直接采集数据的接口和工具:直接采集数据的接口和工具,一个一个 agent 可以管可以管理多个理多个 adaptor 的数据采集的数据采集 3.Collectors:负责收集:负责收集 agents 收送来的数据收送来的数据,并定时写入集并定时写入集群中群中 4.Map/reduce jobs:定时启动:定时启动,负责把集群中的数据分类、负责把集群中的数据分类、排序、去重和合并排序、去重和合并 5.HICC:负责数据的展示:负责数据的展示013.1 大数据采集大数据采集第三章 大数据采集及预处理FlumF

    6、lum1)在数据处理方面在数据处理方面:Flume提供对数据进行简单处理,并写到各种数据接受方处。他提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统),支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力2)在工作方式上:)在工作方式上:Flume-og采用了多Master的形式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存系统配置的数据,ZooKeeper本身具有可保证配置数据的一致性和高可用,同时,在配置数据发生变化时,ZooKeeper可

    7、以通知Flume Master节点。Flume Master间使用gossip协议同步数据。023)Flume-ng取消了集中管理配置的 Master 和 Zookeeper,变为一个纯粹的传输工具。Flume-ng还有一个不同点是读入数据和写出数据现在由不同的工作线程处理(称为 Runner)。在 Flume-og 中,读入线程同样做写出工作(除了故障重试)。如果写出慢的话(不是完全失败),它将阻塞 Flume 接收数据的能力。这种异步的设计使读入线程可以顺畅的工作而无需关注下游的任何问题。3.1 大数据采集大数据采集第三章 大数据采集及预处理ScribeScribeScribe为日志收集提

    8、供了一种容错且可扩展的方案。Scribe可以从不同数据源,不同机器上收集日志,然后将它们存入一个中央存储系统,便于进一步处理。当采用HDFS作为中央系统时,可以进一步使用Hadoop进行 处 理 数 据,于 是 就 有 了Scribe+HDFS+MapReduce方案。033.1 大数据采集大数据采集第三章 大数据采集及预处理KafkaKafka的的producerproducer,brokerbroker和和consumerconsumer三种主要角色三种主要角色(1)ProducerProducer的任务是向的任务是向broker发送数据。为其提供发送数据。为其提供了两种了两种produc

    9、er接口,一种是接口,一种是low_level接口,接口,使用这种接口会向特定的使用这种接口会向特定的broker的某个的某个topic下下的某个的某个partition发送数据;另一种那个是发送数据;另一种那个是highlevel接口,这种接口支持同步接口,这种接口支持同步/异步发送数据,异步发送数据,基于基于zookeeper的的broker自动识别和负载均衡。自动识别和负载均衡。04(3)Consumerconsumer的作用是将日志信息加载到中央存储的作用是将日志信息加载到中央存储系统上。系统上。(2)BrokerBroker采取了多种不同的策略来提高对数据处采取了多种不同的策略来提高

    10、对数据处理的效率。理的效率。3.1 大数据采集大数据采集第三章 大数据采集及预处理第三章 大数据采集及预处理 系统日志采集方法系统日志采集方法 3.1 大数据采集大数据采集高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。常用的日志系统有Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible和LinkedIn的Kafka这些工具大部分采用分布式架构,来满足大规模日志采集的需求ChukwaChukwa的日志采集流程的日志采集流程模拟增量日志环境模拟增量日志环境/home/matrix/Program/project/log/testlog-10.0.

    11、0.10 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.11 17/Oct/2011:23:20:40+0800 GET/izmg/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.12 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSI

    12、E 9.0;Windows NT 6.1;)-10.0.0.13 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.14 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.15 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP

    13、/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.16 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.17 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.18 17/Oct/2011:23:20:40+0

    14、800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-10.0.0.19 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)013.1 大数据采集大数据采集第三章 大数据采集及预处理ChukwaChukwa的日志采集流程的日志采集流程模拟增量日志环境模拟增量日志环境/home/matrix/Program/project/log/logtest-192

    15、.168.0.10 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.11 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.12 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozil

    16、la/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.13 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.14 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.15 17/Oct/2011:23:20:40+0800 GET/

    17、img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.16 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.17 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168

    18、.0.18 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)-192.168.0.19 17/Oct/2011:23:20:40+0800 GET/img/chukwa.jpg HTTP/1.0 404 16 Mozilla/5.0(MSIE 9.0;Windows NT 6.1;)013.1 大数据采集大数据采集第三章 大数据采集及预处理ChukwaChukwa的日志采集流程的日志采集流程模拟增量日志环境模拟增量日志环境/home/matrix/

    19、Program/project/log/write_log.sh#!/bin/bash-cat/home/matrix/Program/project/log/testlog /home/matrix/Program/project/log/testlog1cat/home/matrix/Program/project/log/logtest /home/matrix/Program/project/log/testlog2/etc/crontab*/1*matrix/home/matrix/Program/project/log/write_log.sh$CHUKWA_HOME/conf/i

    20、nitial_adaptors add filetailer.CharFileTailingAdaptorUTF8 TestLog1 0/home/matrix/Program/project/log/testlog1 0add filetailer.CharFileTailingAdaptorUTF8 TestLog2 0/home/matrix/Program/project/log/testlog2 0013.1 大数据采集大数据采集第三章 大数据采集及预处理 chukwachukwa的目录结构的目录结构 /chukwa/archivesProcessing/dataSinkArchiv

    21、es/demuxProcessing/finalArchives/logs/postProcess/repos/rolling/temp/023.1 大数据采集大数据采集第三章 大数据采集及预处理(1)Adaptors使用tail方式监测日志增量;(2)Agent发送数据到collectors;(3)Collectors将各agent收集的数据在/chukwa/logs/目录下写成*.chukwa文件;(4)当*.chukwa文件大小达到阀值或达到一定时间间隔时将其改名为*.done文件;(5)Demux进程将/chukwa/logs/*.done文件转移到/chukwa/demuxProce

    22、ssing/mrInput/目录下进行处理;(6)PostProcess进程将demux进程处理完成的*.evt文件转储到/chukwa/repos/目录下;(7)可以根据PostProcess进程按照日志类型在/chukwa/rolling/目录下生成的文件进行按天或按小时的数据合并。3.1 大数据采集大数据采集第三章 大数据采集及预处理 C Chukwahukwa的处理过程的处理过程 03FlumeFlume日志采集流程日志采集流程(1)从整体上描述代理从整体上描述代理agent中中sources、sinks、channels所涉及到的组件;所涉及到的组件;#Name the compon

    23、ents on this agent a1.sources=r1 a1.sinks=k1 a1.channels=c1013.1 大数据采集大数据采集第三章 大数据采集及预处理 FlumeFlume日志采集流程日志采集流程详细描述agent中每一个source、sink与channel的具体实现:在描述source的时候,需要指定source的类型,这个source是接受文件的、还是接受http的、还是接受thrift的;对于sink也是同理,要指定结果输出到HDFS还是Hbase中。013.1 大数据采集大数据采集第三章 大数据采集及预处理#Describe/configure the so

    24、urce a1.sources.r1.type=netcat a1.sources.r1.bind=localhost a1.sources.r1.port=44444 Describe the sink a1.sinks.k1.type=logger#Use a channel which buffers events in memory a1.channels.c1.type=memory a1.channels.c1.capacity=1000 a1.channels.c1.transactionCapacity=100 Flume Flume日志采集流程日志采集流程 通过channel

    25、将source与sink连接起来#Bind the source and sink to the channel a1.sources.r1.channels=c1a1.sinks.k1.channel=c1启动agent的shell操作:flume-ng agent-n a1 -c ./conf -f ./conf/example.file -Dflume.root.logger=DEBUG,console013.1 大数据采集大数据采集第三章 大数据采集及预处理-n 指定agent名称(与配置文件中代理的名字相同)-c 指定flume中配置文件的目录-f 指定配置文件-Dflume.roo

    26、t.logger=DEBUG,console 设置日志等级ScribeScribe日志采集流程日志采集流程a.Server,适用于压力较小的网站或服务。日志流程如下:,适用于压力较小的网站或服务。日志流程如下:用户用户-WebServer-Scribe-存储存储-分析分析-展示展示用户用户-WebServer-|记录日志的程序框架由记录日志的程序框架由thrift自动生成,只需自动生成,只需include或者或者import即可即可b.C/S结构,适合访问量大的网站和服务,并可根据需要进行平行扩展,采用散结构,适合访问量大的网站和服务,并可根据需要进行平行扩展,采用散列的方式分配服务器压力。列

    27、的方式分配服务器压力。用户用户-WebServer1-ScribeClient-ScribeServer-存储存储-分析分析-展示展示用户用户-WebServer2-|用户用户-WebServer3-|Client及及Server均可进行水平扩展,在程序中设置均可进行水平扩展,在程序中设置hash访问。访问。013.1 大数据采集大数据采集第三章 大数据采集及预处理 Kafka Kafka日志采集流程日志采集流程 生产者定期向主题发送消息;消费者订阅特定主题;消费者将定期请求Kafka需要新消息;消费者将收到消息并进行处理;消费者可以随时回退/跳到所需的主题偏移量,并阅读所有后续消息。013.

    28、1 大数据采集大数据采集第三章 大数据采集及预处理第三章 大数据采集及预处理“网络数据采集网络数据采集”是利用互联网搜索引擎技术对数据进行针是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标对性、行业性、精准性的抓取,并按照一定规则和筛选标准进行将数据进行归类,形成数据库文件的一个过程。准进行将数据进行归类,形成数据库文件的一个过程。互联网网络数据是大数据的重要来源之一通过网络爬虫或互联网网络数据是大数据的重要来源之一通过网络爬虫或网站公开网站公开API等方式等方式可以将非结构化数据从网页中抽取出来,将其存储为统一可以将非结构化数据从网页中抽取出来,将其存储

    29、为统一的本地数据文件,并以结构化的方式存储。的本地数据文件,并以结构化的方式存储。网络数据采集方法网络数据采集方法 3.1 大数据采集大数据采集第三章 大数据采集及预处理 一些企业会使用传统的关系型数据库一些企业会使用传统的关系型数据库MySQL和和Oracle等来存等来存储数据。这些数据库中存储的海量数据,相对来说结构化储数据。这些数据库中存储的海量数据,相对来说结构化更强,也是大数据的主要来源之一。其采集方法支持异构更强,也是大数据的主要来源之一。其采集方法支持异构数据库之间的实时数据同步和复制,基于的理论是对各种数据库之间的实时数据同步和复制,基于的理论是对各种数据库的数据库的Log日志

    30、文件进行分析,然后进行复制。日志文件进行分析,然后进行复制。数据库采集数据库采集 3.1 大数据采集大数据采集第三章 大数据采集及预处理 在一些特定领域,比如对在一些特定领域,比如对于企业生产经营数据或学于企业生产经营数据或学科研究数据等保密性要求科研究数据等保密性要求较高的数据,可以通过与较高的数据,可以通过与企业或研究机构合作,使企业或研究机构合作,使用特定系统接口等相关方用特定系统接口等相关方式采集数据。式采集数据。其他数据采集方法其他数据采集方法 3.1 大数据采集大数据采集第三章大数据采集及预处理3.1 大数据采集3.2数据预处理3.3常用ETL工具 大数据应用人才培养系列教材习题3

    31、.2 数据预处理数据预处理第三章 大数据采集及预处理大数据预处理大数据预处理 大数据正带来一场信息社会的变革。大量的结构化数据和非结构化数据的广泛应用,致使人们需要重新思考已有的IT模式;与此同时,大数据将推动进行又一次基于信息革命的业务转型,使社会能够借助大数据获取更多的社会效益和发展机会;庞大的数据需要我们进行剥离、整理、归类、建模、分析等操作,通过这些动作后,我们开始建立数据分析的维度,通过对不同的维度数据进行分析,最终才能得到想到的数据和信息。因此,如何进行大数据的采集、导入因此,如何进行大数据的采集、导入/预处理、统计预处理、统计/分析和大数据挖分析和大数据挖掘,是掘,是“做做”好大

    32、数据的关键基础。好大数据的关键基础。导导入入/预处理预处理虽然采集端本身有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些数据导入到一个集中的大型分布式数据库或者分布式存储集群当中,同时,在导入的基础上完成数据清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。现实世界中数据大体上都是不完整、不一致的“脏”数据,无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量,产生了数据预处理技术。数据清理数据清理数据集成数据集成数据变换数据变换数据归约数据归约主要是达到数据格式标准化、异常数据清除、数

    33、据错误纠正、重复数据的清除等目标。是将多个数据源中的数据结合起来并统一存储,建立数据仓库。通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。寻找依赖于发现目标的数据的有用特征,缩减数据规模,最大限度地精简数据量。3.2 数据预处理数据预处理第三章 大数据采集及预处理第三章 大数据采集及预处理 数据清洗时发现并纠正数据文数据清洗时发现并纠正数据文件中可识别的错误的最后一道件中可识别的错误的最后一道程序,包括对数据一致性的检程序,包括对数据一致性的检查,无效值和缺失值得处理。查,无效值和缺失值得处理。数据清洗的原理是利用有关技数据清洗的原理是利用有关技术如数据挖掘或预定义的清理

    34、术如数据挖掘或预定义的清理规则将脏数据转化为满足数据规则将脏数据转化为满足数据质量要求的数据。质量要求的数据。数据清洗数据清洗 3.2 数据预处理数据预处理残缺数据残缺数据错误数据错误数据这一类数据主要是因为部分信息缺失,如公司的名称、客户的区域信息、业务系统中主表与明细表不能匹配等数据。将这一类数据过滤出来,按照缺失的内容分别填入对应的文档信息,并提交给客户,在规定时间内补全,才可写入数据仓库。这一类错误产生的原因往往是业务系统不够健全,在接收输入信息后没有进行判断直接将数据写入后台数据库导致的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确等。这类数据也需要分类

    35、,对于类似于全角字符、数据前后有不可见字符问题的只能写SQL语句查找出来,让客户在修正之后抽取。日期格式的错误会导致ETL运行失败,需要去业务系统数据库用SQL的方式挑出来,修正之后再抽取。这一类数据多出现在维护表中,是将重复数据记录的所有字段导出来,让客户确认并整理。数据清理的方法是通过填写无效和缺失的值、光滑噪声的数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到格式标准化、异常数据消除、错误纠正、重复数据的清除等目的。数据清理是将数据库中所存数据精细化,去除重复无用数据,并使剩余部分的数据转化成标准可接受格式的过程。重复数据重复数据3.2 数据预处理数据预处理第三章 大数据采

    36、集及预处理第三章 大数据采集及预处理数据清理的方法数据清理的方法修改错误值用统计分析的方法识别错误值或异常值,如数据偏差、识别不遵守分布的值,也可以用简单规则库检查数据值,或使用不同属性间的约束来检测和清理数据。消除重复记录数据库中属性值相同的情况被认定为是重复记录。通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录。填充缺失值大部分情况下,缺失的值必须要用手工来进行清理。当然,某些缺失值可以从他本身数据源或其它数据源中推导出来,可以用平均值、最大值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。数据的不一致性从多数据源集成的数据语义会不一样,可供定义完整性约束用

    37、于检查不一致性,也可通过对数据进行分析来发现他们之间的联系,从而保持数据的一致性。3.2 数据预处理数据预处理第三章 大数据采集及预处理 数据集成是将不同应用数据集成是将不同应用系统、不同数据形式,系统、不同数据形式,在原应用系统不做任何在原应用系统不做任何改变的条件下,进行数改变的条件下,进行数据采集、转换好储存的据采集、转换好储存的数据整合过程。其主要数据整合过程。其主要目的是在解决多重数据目的是在解决多重数据储存或合并时所产生的储存或合并时所产生的数据不一致、数据重复数据不一致、数据重复或冗余的问题,以提高或冗余的问题,以提高后续数据分析的精确度后续数据分析的精确度和速度。和速度。数据集

    38、成数据集成 3.2 数据预处理数据预处理第三章 大数据采集及预处理 数据转换(数据转换(data transfer)时采用线性或)时采用线性或非线性的数学变换方法非线性的数学变换方法将多维数据压缩成较少将多维数据压缩成较少维的数据,消除他们在维的数据,消除他们在时间、空间、属性及精时间、空间、属性及精度等特征表现方面的差度等特征表现方面的差异。实际上就是将数据异。实际上就是将数据从一种表示形式变为另从一种表示形式变为另一种表现形式的过程。一种表现形式的过程。数据转换数据转换 3.2 数据预处理数据预处理第三章 大数据采集及预处理数据转换方法数据转换方法中心化变换变换之后均值为0,协方差阵不变,

    39、可以用来方便地计算样本协方差阵。3.2 数据预处理数据预处理第三章 大数据采集及预处理数据转换方法数据转换方法标准化变换变换之后每个变量均值为0,标准差为1,变换后的数据与变量的量纲无关。3.2 数据预处理数据预处理极差标准化变换变换后每个变量样本均值为0,极差为1,变换后数据绝对值数据在(-1,1)中,能减少分析计算中的误差,无量纲。第三章 大数据采集及预处理数据转换方法数据转换方法极差正规化变换变换后数据在0,1之间;极差为1,无量纲。3.2 数据预处理数据预处理对数变换将具有指数特征的数据结构变换为现行数据结构第三章 大数据采集及预处理 数据归约技术可以用来数据归约技术可以用来得到数据集

    40、的归约表示,得到数据集的归约表示,它很小,但并不影响原它很小,但并不影响原数据的完整性,结果与数据的完整性,结果与归约前结果相同或几乎归约前结果相同或几乎相同。所以,我们可以相同。所以,我们可以说数据归约是指在尽可说数据归约是指在尽可能保持数据原貌的前提能保持数据原貌的前提下,最大限度地精简数下,最大限度地精简数据量保持数据的原始状据量保持数据的原始状态。态。数据规约数据规约3.2 数据预处理数据预处理两个两个途径途径数据采样属性选择针对原始数据集中的记录针对原始数据集中的属性3.2 数据预处理数据预处理第三章 大数据采集及预处理数据规约数据规约数据归约可以分为三类,分别是特征归约、样本归约、

    41、特征值归约。特征归约是将不重要的或不相关的特征从原有特征中删除,或者通过对特征进行重组和比较来减少个数。其原则是在保留、甚至提高原有判断能力的同时减少特征向量的维度。特征归约算法的输入是一组特征,输出是它的一个子集。样本归约就是从数据集中选出一个有代表性的子集作为样本。子集大小的确定要考虑计算成本、存储要求、估计量的精度以及其它一些与算法和数据特性有关的因素。12特征值归约分为有参和无参两种。有参方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,包含回归和对数线性模型两种。无参方法的特征值归约有3种包括直方图、聚类和选样。33.2 数据预处理数据预处理第三章 大数据采集及预处理

    42、第三章 大数据采集及预处理特征值规约算法三步骤特征值规约算法三步骤评估过程输入一个状态,通过评估函数或预先设定的阈值输出一个评估值搜索算法的目的是使评估值达到最优。搜索过程在特征空间中搜索特征子集,每个子集称为一个状态由选中的特征构成。分类过程使用最后的特征集完成最后的算法。3.2 数据预处理数据预处理第三章大数据采集及预处理3.1 大数据采集3.2数据预处理3.3常用ETL工具 大数据应用人才培养系列教材习题3.3常用常用ETL工具工具第三章 大数据采集及预处理常用常用ETL工具工具的概念的概念 ETL(Extract-Transform-Load)是一种数据仓库技术,即数据抽取(Extra

    43、ct)、转换(Transform)、装载(Load)的过程,其本质是数据流动的过程,将不同异构数据源流向统一的目标数据。空值处理12354 ETL转换过程转换过程规范化数据格式拆分数据验证数据正确性数据替换76Lookup建立ETL过程的主外键约束3.3常用常用ETL工具工具第三章 大数据采集及预处理典型的典型的 ETL工具工具1Informatica3.3常用常用ETL工具工具第三章 大数据采集及预处理2Datastage3OWB 4微软DTS5Beeload6BeeloadETL架构的优势架构的优势2相对于EL-T架构可以实现更为复杂的数据转化逻辑3采用单独的硬件服务器1可以分担数据库系统

    44、的负载4与底层的数据库数据存储无关3.3常用常用ETL工具工具第三章 大数据采集及预处理管理简单管理简单标准定义数据标准定义数据采用元数据方法,集中进行管理;接口、数据格式、传输有严格的规范;尽量不在外部数据源安装软件;数据抽取系统流程自动化,并有自动调度功能;抽取的数据及时、准确、完整;可以提供同各种数据系统的接口,系统适应性强;提供软件框架系统,系统功能改变时,应用程序很少改变便可适应变化;可扩展性强。ETL则会依照模型的定义去提取数据源,进行转换、清洗,并最终加载到目标数据仓库中。模型的标准化定义的内容包括:标准代码统一、业务术语统一。元数据是描述数据的数据。业务数据主要用于支持业务系统应用的数据,而元数据则是企业信息门户、客户关系管理、数据仓库、决策支持和B2B等新型应用所不可或缺的内容。元数据元数据3.3常用常用ETL工具工具第三章 大数据采集及预处理第三章大数据采集及预处理3.1 大数据采集3.2数据预处理3.3常用ETL工具 大数据应用人才培养系列教材习题1.常用大数据采集工具有哪些?2.简要阐述数据预处理原理?3.数据清洗有哪些方法?4.数据转换的主要内容包括什么?5.分别阐述常用的工具?习题:习题:感谢聆听

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据采集及预处理课件.pptx
    链接地址:https://www.163wenku.com/p-5193120.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库