机器学习与大数据技术第四章-大数据处理技术课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习与大数据技术第四章-大数据处理技术课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 数据 技术 第四 数据处理 课件
- 资源描述:
-
1、机器学习与大数据技术作者:牟少敏教授第四章大数据处理技术p大数据简介p大数据处理框架p大数据面临的挑战p大数据技术创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介1.概念Wiki百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。IDC(国际数据公司)报告:大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值。目前大数据的研究热点主要包括:大数据基础理论、大数据存储与分析技术、大数据与云计算、大数据存储管理和查询技术、Hadoop性能优化和功能增强、商业智能分析、自然语言处理
2、和大数据可视化计算等。创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介2.特点大数据的“大”并不仅仅在于数据量大,同时数据的收集、存储、管理以及共享等任务赋予大数据的“大”更多的含义。学术界已经总结了大数据的许多特点,包括数据量大、多样性、价值密度低、高速度等,一般用4V来概括。p 数据量大(Volume)p 多样性(Variety)p 价值密度低(Value)p 高速度(Velocity)创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介数据量大有两个含义:一是全球的数据量的增长惊人;二是指数据体量大,从TB级别跃升到PB级别。根据IDC的统计,2011
3、年全球数据总量大约为1.8ZB,到2020年将可能达到35ZB,年均增长率超过40%。计算机存储单位的换算关系如下:1KB=1024B;1MB=1024KB;1GB=1024MB;1TB=1024GB;1PB=1024TB;1EB=1024PB;1ZB=1024EB;1YB=1024ZB;1BB=1024YB;1NB=1024BB;1DB=1024NB通过上面的换算关系我们可以看出,全球产生的数据量是非常惊人的。但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。分析、挖掘和实时处理如此大规模的数据需要智能的算法、强大的数据处理平台和新的数据处理技术的支持。p 数据量大
4、(Volume)创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介大数据的数据类型繁多,非结构化数据越来越多,有很多不同的类型,如:网络日志、声音、文本、地理位置信息、图像和视频等。这些多类型的数据对数据的存储和处理能力提出了更高要求。目前,非结构化数据占数据总增长量的80-90%,比结构化数据增长快10倍到50倍。p 多样性(Variety)创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介价值密度低意味着数据的价值与数据总量的大小成反比关系,即数据量虽然很大,但有价值的数据和知识可能较少。以公安视频监控系统为例,常年24小时不间断视频监控过程中,可能有用
5、的数据仅仅只有几分钟。如何通过强大的机器算法更迅速地挖掘数据的价值,成为目前大数据背景下亟待解决的难题。p 价值密度低(Value)创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介这里的速度不仅指与数据存储相关的增长速率,也包括数据流动的速度。数据产生和更新的频率高,也是大数据的一个重要特征。在数据量非常庞大的情况下,需要对数据进行快速、实时的处理,处理速度应满足实际应用的需要。p 高速度(Velocity)创新与贡献研究意义选题背景第四章4.1.2 大数据类型 4.1 大数据简介p 结构化数据能够用统一的结构表示的数据称之为结构化数据,如数字、符号等,可以用二维表结构表示
6、。创新与贡献研究意义选题背景第四章4.1.2 大数据类型 4.1 大数据简介p 非结构化数据p 半结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。一个非结构化数据由基本属性、语义特征、底层特征以及原始数据四个部分构成,且四部分数据之间存在各种联系。目前,非结构化数据的种类繁多,例如:新浪微博、Facebook等消息文本数据;优酷、爱奇艺或腾讯视频等用户生成的视频数据;电话监控语音数据、基因组序列数据、气象监测数据和交通视频监控数据等。针对不同的非结构数据,其收集方式是不一样的。半结构化数据是介于结构化数据和非结构化数据之间的数据,例如HTML文档就属于半
7、结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介p 企业大数据应用大数据应用是利用大数据分析结果为用户提供辅助决策,发掘潜在价值的过程。p 物联网大数据应用 创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介目前,大数据主要应用于企业内部,商业智能是大数据技术的典型应用。企业内部应用大数据技术,可以在多个方面提升企业的生产效率和竞争力。在市场方面,利用大数据关联分析,可以更准确地了解消费者的使用行为,挖掘新的商业模式;在销售规划方面,通过大量数据的比较,可以优化商品价格;在
8、运营方面,可以提高企业运营效率和满意度,优化劳动力投入,避免产能过剩,降低人员成本;在供应链方面,利用大数据技术进行库存优化和物流优化等工作,可以缓和供需之间的矛盾、控制预算开支。p 企业大数据应用创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介物联网不仅是数据的重要来源,还是大数据应用的主要市场。在物联网中,现实世界中的每个物体都可以是数据的生产者和消费者,由于物体种类繁多,物联网的应用也层出不穷。各种物流企业正在积极使用大数据技术开发新型物联网系统。例如,快递公司为了跟踪公司车辆的位置和预防引擎故障,在其货车上装有传感器、无线适配器和GPS系统,这些设备可以优化货
9、车行车线路。p 物联网大数据应用创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术 4.2 大数据技术大数据的获取是大数据分析和处理的前提,大数据获取的数据可分为两大类:静态非实时数据和动态实时数据。各种历史数据,如历年的病虫害数据属于静态数据,这些数据大都是由纸质或电子表格组成。实时数据一般是通过多种的传感器或软件实时获取的,由存储设备存储。例如:通过温度、湿度等传感器采集到的温度、湿度实时数据。创新与贡献研究意义选题背景第四章1.数据获取技术4.2 大数据技术狭义上的数据获取是指利用一种装置,将来自各种数据源的数据自动收集到一个装置中。广义上的数据获取是指获取信息的过程,分为
10、数据采集、数据传输和数据预处理三部分。数据采集是指从特定数据生产环境获得原始数据的技术。随着互联网、电子商务、社交网络等互联网新兴技术的普及和应用,图像、视频、日志等网络数据呈现爆炸性增长。p 传感器p 日志文件p 系统日志采集p Web 爬虫创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术传感器是一种能将感受到的声音、温度、压力、电流、振动和距离等类型的信息,按一定规律转换为电信号或其他形式的信息输出的装置,常用于获取各种信息,特点是数字化、多功能化、系统化、智能化和网络化。p 传感器(与下一页传感器内容重复)4.2 大数据技术创新与贡献研究意义选题背景第二章4.2.1 数据
11、获取与预处理技术p 日志文件日志是广泛使用的数据采集方法,由数据源系统产生,以特殊的文件格式记录系统的活动,例如WEB服务器通常要在访问日志文件中记录网站用户的点击、键盘输入、访问行为以及其它属性等。和物理传感器相比,日志文件可以看作是“软件传感器”。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。p 系统日志采集4.2 大数据技术创新与
12、贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术爬虫是指为搜索引擎下载并存储网页的程序,是搜索引擎和Web缓存等的主要数据采集方式。Web爬虫数据采集过程由选择策略、重访策略、礼貌策略以及并行策略决定。选择策略决定哪个网页将被访问;重访策略决定何时检查网页是否更新;礼貌策略防止过度访问网站;并行策略则用于协调分布的爬虫程序。爬虫的基本步骤是,顺序地访问初始队列中的一组URLs,并为所有URLs分配一个优先级;从队列中获得具有一定优先级的URL,下载该网页,随后解析网页中包含的所有URLs并添加这些新的URLs到队列中;不断重复上述步骤,直到爬虫程序停止为止。传统的Web爬虫应用已较为
13、成熟,随着更丰富更先进的Web应用的出现,一些新的爬虫机制已被用于爬取互联网应用的数据。p Web 爬虫4.2 大数据技术创新与贡献研究意义选题背景第四章2.数据预处理技术现实世界直接获取的数据由于受数据采集设备异常、录入数据错误、数据传输异常、数据转换不一致及部分技术受限等众多因素的影响,数据中普遍存在的缺陷主要表现在以下3个方面:1)不完整性,缺少有价值的属性或者有价值的属性有缺损;2)噪声,数据中包含错误信息,或者存在着部分偏离期望值的孤立点;3)不一致性,数据的不一致性主要体现在数据结构的不一致性、标号的不一致性和数据值的不一致性。从需求的角度来看,一些数据分析工具和技术对数据质量有着
14、严格的要求,如果没有高质量的数据作为基础,数据分析挖掘结果往往差强人意,合理的决策更无从谈起。因此,通过数据预处理来提高数据的质量是大数据处理技术的重要环节。4.2 大数据技术创新与贡献研究意义选题背景第四章2.数据预处理技术为了得到高质量的数据,数据预处理之前需要制定和明确统一的数据质量标准,在数据预处理的过程需要做到以下4个基本要求:1)检测并除去数据中所有明显的错误和噪声;2)尽可能地减小人工干预和用户的编程工作量,并且容易扩展到其它数据源;3)与数据转化相结合;4)要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成。4.2 大数据技术创新与贡献研究意
15、义选题背景第四章1.数据获取技术数据预处理是指在进行主要的分析处理以前,对数据进行的一些处理。p 数据清洗p 数据集成p 数据变换p 数据规约处理方式:4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术数据清洗是指在数据集中发现不准确、不完整的数据,然后对这些数据进行修正或删除,消除数据不一致的问题,提高数据质量。数据清洗能够提高数据分析的准确性,是数据预处理中非常重要的一步。但是数据清洗需要复杂的关系模型,这会给系统带来额外的计算开销,因此需要在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。p 数据清洗4.2 大数据技术创新与贡献研究意义选题背景第四章4
16、.2.1 数据获取与预处理技术数据集成是在逻辑上和物理上把来自不同数据源的数据合并成一致的数据存储的过程,核心任务是将互相关联的分布式异构数据源集成到一起,减少结果数据集中冗余和不一致问题,提高挖掘过程的准确性和速度。数据集成按照处理对象的不同可分为基本数据的集成,多级视图的集成,模式的集成以及多粒度数据的集成。常见的数据集成方法有联邦数据库,中间件集成方法和数据仓库方法三种。下面重点介绍数据仓库方法。数据仓库方法是一种基于数据复制的方法,基本思想是将多个不同数据源的数据复制到数据仓库中,方便用户访问。数据仓库通过以下3个步骤来完成数据集成:1)提取:连接源系统并选择和收集必要的数据用于随后的
17、分析处理;2)变换:通过一系列的规则将提取的数据转换为标准格式;3)装载:将提取并变换后的数据导入目标存储基础设施。p 数据集成4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术数据变换是指将数据从一种表现方式转化到另一种表现方式的过程,基本思想是找到数据的特征表示,对数据进行平滑处理、合计处理、泛化处理及规则化一系列操作,达到减少有效变量的数目或找到数据的不变式。平滑处理是对数据中的噪声进行处理,主要的方法有回归方法、聚类方法和Bin方法;合计处理是对数据进行合计或总结操作,如对每个月的总收入进行合计处理,常用于对数据进行多细度的分析或构造数据立方体中;数据泛
18、化处理是指用更高层次或更抽象的概念代替低层次或数据层的数据对象,如可将年龄这一属性抽象成为少年、青年、中年和老年等;规则化是指将有关属性数据按照一定的比例映射到特定小范围之中。p 数据变换4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。数据规约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。目前常用的数据规约的方法有:特征规约、样本规约和特征值规约。特征规约是从原有的特征中删除不重要或不相关的特征,或者通过特征重组来减少特征的个数。样本规约就是从数据集中选出一个有代表性的子集
19、,子集大小的确定要考虑计算成本、存储要求、估计量的精度以及其它一些与算法和数据特性有关的因素。特征值规约是特征值离散化技术,是将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号,特征值规约的好处在于简化了数据描述,并易于理解数据和最终的挖掘结果。由此可见,完成数据规约的必要前提是熟悉数据本身的内容和理解数据挖掘需求。p 数据规约4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术通过大数据预处理后,良好或高质量的数据应当符合以下几条标准:p 数据规约(1)完整性:尽可能富含属性名和属性值的明确含义以及统一多数据源的属性编码。(2)规范性:数据应
20、按照统一格式存储。(3)一致性:数据值在信息含义上是没有矛盾的。(4)准确性:数据信息是准确的,数据时效性在需求范围内,不存在可忽略的字段和记录。(5)关联性:不存在数据缺失、索引缺失和关联缺失。(6)唯一性:不存在重复数据和重复属性。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术数据存储技术解决的是大规模数据的持久存储和管理问题。随着数字图书馆、多媒体传输、电子商务等应用的不断发展,数据向PB量级急速增加,对存储容量提出了巨大的要求;同时,由于数据的多样化、对重要数据保护以及地理上的分散性等对数据的有效管理提出了更高的要求。因此,存储产品已不再是附属于服务器的辅
21、助设备,而成为互联网中最主要的花费所在。轻型数据库无法满足对结构化、半结构化和非结构化海量数据的存储与管理,以及对复杂的数据挖掘和分析操作,通常使用分布式文件系统、NoSQL数据库和云数据库等解决上述问题。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术p 分布式系统p NoSQL 数据库p 云数据库4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术分布式系统包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,采用分而治之的策略,能够更好的处理大规模数据分析问题。p 分布式系统1)分布式文件系统存储管理需要多种技术的协同工作,其
22、中文件系统为其提供最底层存储能力的支持。常见的分布式文件系统有HDFS、GFS、GridFS、Ceph、mogileFS、Lustre、TFS和FastDFS等。其中HDFS是一个高度容错性系统,适用于批量处理,能够提供高吞吐量的的数据访问。4.2 大数据技术2)分布式键值系统分布式键值系统用于存储关系简单的半结构化数据。典型的分布式键值系统有,Amazon Dynamo。获得广泛应用和关注的对象存储技术也可以视为键值系统,但其存储和管理的是对象而不是数据块。创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术传统的关系数据库已经无法满足Web2.0的需求,主要原因是:1)无法满足海量数
23、据的管理需求;2)无法满足数据高并发的需求;3)高可扩展性和高可用性的功能太低。NoSQL数据库可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等,典型的NoSQL数据库包含键位数据库、列族数据库、文档数据库、图形数据库。p NoSQL 数据库4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术云数据库是基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库。云数据库的特征包括:高可用性、易用性、动态可扩展性、低使用代价、高性能、免维护和安全性等。目前常用的云数据库产品有Microsoft SQL
24、Azure、Google Cloud SQL以及阿里云等。从数据模型的角度来说,云数据库并非一种全新的数据库技术,而只是以服务的方式提供数据库功能。云数据库所采用的数据模型可以是关系数据库所使用的关系模型,如微软的SQLAzure云数据库;也可以是NoSQL数据库所使用的非关系模型。p 云数据库4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 分析与挖掘技术大数据分析与挖掘技术是指对类型多样、增长迅速的海量数据进行交叉处理和分析,实现数据的深度融合,并从中找出帮助决策的隐藏模式、未知的相关关系以及其他有价值信息的过程,是大数据理念与方法的核心。传统的分析与挖掘技术方法以结构化数据和
25、关系型数据库为主,常见的分析与挖掘方法包括机器学习、数据挖掘和统计分析等。随着大数据的发展,出现了一些新的数据分析与挖掘技术方法与研究对象,如对半结构化与非结构化数据的分析。当前数据分析与挖掘技术的研究热点主要有文本数据分析、结构化数据分析、Web数据分析、多媒体数据分析、图文转换技术和地理信息技术等方面。目前常用的大数据处理框架有流式数据分析、批处理分析、交互式数据分析和图数据分析。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 分析与挖掘技术在流式数据分析中,数据以流的方式到达内存,直接进行数据的实时计算,无需实现存储。因此,流式数据分析中的数据具有实时性、突发性、易失性和无
展开阅读全文