大数据导论6.1.4熟悉大数据处理技术-大数据的处理模式课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据导论6.1.4熟悉大数据处理技术-大数据的处理模式课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 导论 6.1 熟悉 数据处理 技术 处理 模式 课件
- 资源描述:
-
1、 Big Data一、一、处理工作量处理工作量大数据的处理工作量大数据的处理工作量:被定义为一定时间内处理数据的性质与数量。被定义为一定时间内处理数据的性质与数量。处理工作量主要分为批处理和事务两种类型处理工作量主要分为批处理和事务两种类型。(1)批处理型。)批处理型。也称为脱机处理,这种方式通常成批地处理数据,也称为脱机处理,这种方式通常成批地处理数据,因而会导致较大的延迟。通常我们采用批处理完成大数据有序的读因而会导致较大的延迟。通常我们采用批处理完成大数据有序的读/写操写操作,这些读作,这些读/写查询通常是成批的写查询通常是成批的。(2)事务型。)事务型。也称为在线处理,这种处理方式通过
2、无延迟的交互式也称为在线处理,这种处理方式通过无延迟的交互式处理使得整个回应延迟很小。事务型处理一般适用于少量数据的随机读处理使得整个回应延迟很小。事务型处理一般适用于少量数据的随机读/写写操作。操作。Big Data二、二、批处理模式批处理模式特征:特征:批处理批处理模式中,数据总是成批地脱机处理,响应时长从几分钟到几模式中,数据总是成批地脱机处理,响应时长从几分钟到几小时不等。在这种情况下,数据被处理前必须在磁盘上保存。批处理模式适用小时不等。在这种情况下,数据被处理前必须在磁盘上保存。批处理模式适用于庞大的数据集,无论这个数据集是单个的还是由几个数据集组合而成的,该于庞大的数据集,无论这
3、个数据集是单个的还是由几个数据集组合而成的,该模式可以本质上解决大数据数据量大和数据特性不同的问题。模式可以本质上解决大数据数据量大和数据特性不同的问题。优势:优势:批处理批处理是大数据处理的主要方式,相较于实时模式,它比较简单,是大数据处理的主要方式,相较于实时模式,它比较简单,易于建立,开销也比较小。像商务智能、预测性分析与规范性分析、易于建立,开销也比较小。像商务智能、预测性分析与规范性分析、ETL操作,操作,一般都采用批处理模式。一般都采用批处理模式。Big Data二、二、批处理模式批处理模式1.MapReduce1.MapReduce批处理批处理 MapReduceMapReduc
4、e是一种编程模型,用于大规模数据集(大于是一种编程模型,用于大规模数据集(大于1TB1TB)的并行)的并行运算。运算。概念概念MapMap(映射)(映射)和和ReduceReduce(归约)(归约),是它们的主要思想,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。序运行在分布式系统上。当前当前的软件实现是指定一个的软件实现是指定一个MapMap(映射)函数
5、(映射)函数,用来把一组键值对,用来把一组键值对映射成一组新的键值对,指定并发的映射成一组新的键值对,指定并发的ReduceReduce(归约)函数(归约)函数,用来保证所,用来保证所有映射的键值对中的每一个共享相同的键组。有映射的键值对中的每一个共享相同的键组。Big DataMapReduceMapReduce提供了以下的主要提供了以下的主要功能:功能:1 1)数据划分和计算任务调度)数据划分和计算任务调度2 2)数据)数据/代码互定位代码互定位3 3)系统优化)系统优化4 4)出错检测和恢复)出错检测和恢复二、二、批处理模式批处理模式1.MapReduce1.MapReduce批处理批处
6、理MapReduceMapReduce设计上具有以下主要的技术特征:设计上具有以下主要的技术特征:1 1)向)向“外外”横向扩展,而非向横向扩展,而非向“上上”纵向扩展纵向扩展2 2)失效被认为是常态)失效被认为是常态3 3)把处理向数据迁移)把处理向数据迁移4 4)顺序处理数据、避免随机访问数据)顺序处理数据、避免随机访问数据5 5)为应用开发者隐藏系统层细节)为应用开发者隐藏系统层细节6 6)平滑无缝的可)平滑无缝的可扩展性扩展性 Big Data执行步骤二、二、批处理模式批处理模式1.MapReduce1.MapReduce批处理批处理 Big DataMapReduceMapReduc
7、e是面向大数据并行处理的计算模型、框架和是面向大数据并行处理的计算模型、框架和平台。平台。它它隐含隐含了三了三层含义层含义:二、二、批处理模式批处理模式1.MapReduce1.MapReduce批处理批处理1)MapReduce是一个基于集群的高性能并行计算平台。是一个基于集群的高性能并行计算平台。2)MapReduce是一个并行计算与运行软件框架。是一个并行计算与运行软件框架。3)MapReduce是一个并行程序设计模型与方法。是一个并行程序设计模型与方法。Big Data 一一次次MapReduceMapReduce处理引擎的运行被称为处理引擎的运行被称为MapReduceMapRedu
8、ce作业,它由映射作业,它由映射(MapMap)和归约()和归约(ReduceReduce)两部分任务组成,这两部分任务又被分为多个)两部分任务组成,这两部分任务又被分为多个阶段阶段。一个作业一个作业 =映射映射+归约归约 其中其中映射任务被分为映射(映射任务被分为映射(mapmap)、合并()、合并(combinecombine)和分区)和分区(partitionpartition)三个阶段,合并阶段是可选的;归约任务被分为洗牌和)三个阶段,合并阶段是可选的;归约任务被分为洗牌和排排序(序(shuffle and sortshuffle and sort)与归约()与归约(reducered
9、uce)两)两个阶段个阶段。映射映射=映射映射+合并合并+分区分区 归约归约=洗牌洗牌和和排序排序+归约归约二、二、批处理模式批处理模式2.Map和Reduce任务 Big Data(1 1)映射。)映射。MapReduceMapReduce的第的第一个阶段称为映射。映射阶一个阶段称为映射。映射阶段首先把大的数据文件分割段首先把大的数据文件分割成多个小数据文件。每个较成多个小数据文件。每个较小的数据文件的每条记录都小的数据文件的每条记录都被解析为一组键被解析为一组键-值对,通常值对,通常键表示其对应记录的序号,键表示其对应记录的序号,值则表示该记录的实际值。值则表示该记录的实际值。数据在映射阶
展开阅读全文