Spark技术及应用ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《Spark技术及应用ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark 技术 应用 ppt 课件
- 资源描述:
-
1、Spark知识分享1学习交流PPTl Spark 简介l Spark SQL 简介l Spark Streaming 简介l Spark应用场景Spark知识分享2学习交流PPTHadoop在2003年从Nutch发展到Lucene,在Yahoo成长,进入Apache孵化,2008年获得大量使用。但一直存在MR算法少算法少、每次每次Reduce都需要磁盘读写都需要磁盘读写、MR需要成对出现需要成对出现、Master节点调度慢节点调度慢、单节点单节点等等问题。Spark2007年在Yahoo起步,用于改善MR算法。2009年独立为一个项目,2010年开源,2013年进入Apache孵化。被称为以
2、下一代计算平台。Berkeley大学成为大数据技术中心,Berkeley Data Analysis Stack(BDAS)逐步形成大数据平台。大数据架构的演进3学习交流PPTSpark堆栈 4学习交流PPT从实例开始, 漫游Spark内核lines = spark.textFile(“hdfs:/.”)errors = lines.filter(_.startsWith(“ERROR”)messages = errors.map(_.split(t)(2)cachedMsgs = messages.cache()Block 1Block 2Block 3WorkerWorkerWorkerD
3、rivercachedMsgs.filter(_.contains(“foo”).countcachedMsgs.filter(_.contains(“bar”).count. . .tasksresultsCache 1Cache 2Cache 3Base RDDTransformed RDDActionResult: full-text search of Wikipedia in getTags(status)flatMapflatMapflatMaptransformation: modify data in one DStream to create another DStream
4、new DStreamnew RDDs created for every batch batch t+1batch tbatch t+2tweets DStreamhashTags Dstream#cat, #dog, 18学习交流PPT离散的流处理1、不同于一般流处理软件,Spark Streaming采用一系列毫秒级的批量处理,实现快速计算。2、将一个需要处理的任务,转化为多个RDD计算,运行在Spark上。val tweets = ssc.twitterStream()val hashTags = tweets.flatMap (status = getTags(status)hash
展开阅读全文