大数据下的资源整合和知识共享(下)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据下的资源整合和知识共享(下)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 资源整合 知识 共享 课件
- 资源描述:
-
1、大数据下大数据下的的资源资源整合和知识共享整合和知识共享(下)(下)一、热词解释一、热词解释二、国际大数据案例分析及相关技术介绍二、国际大数据案例分析及相关技术介绍三、大数据实际项目解析三、大数据实际项目解析目目 录录(一)国际大数据案例分析(一)国际大数据案例分析(二)大数据相关技术(二)大数据相关技术二、国际大数据案例分析二、国际大数据案例分析 及相关技术介绍及相关技术介绍(二)大数据相关技术(二)大数据相关技术1.数据获取与储存Hadoop是一个能够对大量数据进行分布式处理的开源软件框架。它支持数据密集型分布式应用并以Apache2.0为许可协议发布。它支持在商品硬件构建的大型集群上运行
2、应用程序。Hadoop是以一种可靠、高效、可伸缩的方式对大数据进行处理。三个层次底层集群的存储环境,HDFS中间层分布式的数据处理顶层有一个抽象PIG,Hive还有SqoopHADOOPHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS能提供高吞吐量的数据访问,非常适合于大规模数据集上的应用。HDFS放宽了一部分POSIX的约束,来实现流式读取文件系统数据的目的。HDFSHDFSHDFS包含了一个Namenodes,还有很多的Datanodes。Namenodes进行一个元数据的管理,Datanodes保存在不同
3、的物理设备上。Datanodes里面绿色的小方框,是存储块。10K nodes, 100 million files, 10 PB规模适合数据批量处理;最大化吞吐率;允许计算向数据迁移特性数据块副本、数据块放置策略、缓存策略等优化它是一种并行式的计算模型,用于大规模数据集,通常是大于1TB的并行计算。Map是映射,Reduce是规约。MapReduceMapReduce 流程AmapB reduce两个阶段 应用程序开三个线程。一个线程产生Master结点,另外两个Worker结点。HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为J
4、ava。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。 Hive是基于Hadoop的一个数据仓库工具。 主要考虑大数据查询效率问题的解决,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。 可以将SQL语句转换为MapReduce任务进行运行。说明:Hive具有容错的机制。1首先将任务分配给HDFS之上的三个Node,每个Node代表一个机器。2Node3因为某种原因失败,这个任务只完成了85%。3在Time3的时候,这个任务可以迁移到另外的一个
5、Node。PigPig为复杂的海量数据并行计算,提供了一个简单的操作和编程接口。Spark是一个高效的分布式计算系统,它有MapReduce所有优点,同时性能比Hadoop高100倍。1在性能上提供比Hadoop更上层的API,同样的算法只有Hadoop的1/10或者1/100的长度。2Shark是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。3SparkSpark大数据的数据挖掘与机器学习,是大数据技术的核心,也是人工智能的核心。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有
6、用的信息和知识的过程。2.数据挖掘与分析核心数据挖掘案例:购物篮分析顾客往往喜欢将啤酒和尿布同时购买。机器学习机器学习 机器学习主要是设计和分析一些让计算机可以自动学习的算法,它是一类从数据中自动分析获得规律,并且利用规律对未知数据进行预测的算法。3.数据交互与可视化可视化就是利用计算机图形学以及图像处理技术,将数据转换成图像,显示在电脑的显示器上。信息可视化科学可视化便于对科学技术数据和便于对科学技术数据和模型的实时渲染与处理模型的实时渲染与处理。提高人对大规模提高人对大规模非非结构结构化数据的理解与感知,化数据的理解与感知,降低大数据信息负载降低大数据信息负载。技术:分布式实时渲染(GPU
展开阅读全文