相关培训方案.doc
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《相关培训方案.doc》由用户(可爱的嘎嘎)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 培训 方案
- 资源描述:
-
1、相关培训方案1、大数据技术与应用 (7.23-28 芜湖)一、培训对象与要求针对高校大数据技术与应用和商务数据分析与应用相关课程教师、学校主管领导以及相关科研部门负责人。本培训班每个单位选派相关人员原则上不超过3人。各单位要认真做好选派工作,保留选派人员记录,避免重复培训。二、培训内容24日模块一、高校如何开设大数据教学课程l 大数据相关专业人才需求缺口l 大数据相关招聘岗位需求分析l 大数据技术演进与变革l 应对IT新技术变革,教师知识的储备与提升l 在哪个层面进行教学精彩案例 开展大数据分析挖掘教学的形式 高校开设大数据的教学可在多个层面上进行 有条件的高校可以开设云计算专业 不成熟的可在
2、在计算机相关专业上增设数据挖掘和分析方向 不具备条件的高校可以开设大数据方面的课程模块二、大数据产业发展与人才需求l 大数据起源和产生、大数据概念的发展与解析l 大数据在国内外发展现状、大数据在互联网发展现状l 大数据人才需求以及趋势l 大数据人才培养体系的最佳实践模块三、大数据带来的机遇和挑战l 大数据能带来什么 、引领社会进入“大数据时代” l 大数据对国家、社会的作用 、大数据将推动经济发展 l 大数据将推动科技发展进程、开启商业智能新阶段 l 数据分析的发展从数据到知识 l 大数据如何让商业更智能、大数据应用案例 l 带来数据处理新变革 、大数据的关键技术 l 大数据与云计算 、大数据
3、技术的发展趋势精彩案例 智慧政府 智慧城市与大数据 车联网 大数据舆情分析 数据治理 智能推荐 大数据与银行 大数据营销分析模块四、电商日志评论数据分析系统l 京东案例剖析l 京东数据介绍l 系统的技术框架选型l 日志采集系统介绍实战内容(现场实验环节) Linux下日志清洗、加载(实战) Web系统最终结果数据展示(演示实验)25日模块五、YARN架构设计和核心概念l YARN出现的背景l YARN的设计思想和基本概念l YARN的基础架构l YARN的工作流程l YARN基础类库详解l YARN核心模块ApplicationMaster详解l YARN核心模块ResourceManager
4、剖析l YARN核心模块NodeManager详解l Hadoop V2资源调度器详细介绍实战内容(现场实验环节) 基于YARN的应用程序设计和简单实现案例 YARN使用第三方类库,包含通信、服务、时间、状态等 从资源管理角度理解YARN框架 ApplicationMaster核心源码 ResourceManager核心源码 NodeManager核心源码模块六、基于电商日志数据MapReduce高级编程l MapReduce V2基本架构、原理和相关角色介绍l MapReduce V1和MapReduce V2l MapReduce V2中MRAppMaster的工作流程l MapReduc
5、e V2作业生命周期理解l MapReduce V2资源调度理解l MapReduce V2作业恢复和推测执行机制介绍l 剖析MapReduce V2样例程序代码流程 l 基本MapReduce V2 API 概念 l 驱动代码 Mapper、Reducerl Hadoop流在MapReduce V2中的使用l 使用Eclipse进行快速开发 l MapReduce V2的编程优化l 满足解决实际数据分析问题的高级MapReduce V2多语言编程实践实战内容(现场实验环节) Hadoop Streaming和 Java MapReduce V2编程的差异 利用Combiner来减少中间数据
6、编写Partitioner来优化负载平衡 直接访问Hadoop分布式文件系统HDFS MapReduce V2的join操作 辅助排序在Reducer方的合并 定制开发Writables和WritableComparable高级类 使用SequenceFiles和Avro文件保存二进制数据 定制开发InputFormats和OutputFormat 基于MapReduce V2的海量日志分析 熟悉Java编程IDE Eclipse MapReduce V2 wordcount实例测试 MapReduce V2 wordcount源代码查看讲解 MapReduce V2实现单词统计扩展代码逻辑并
7、测试结果 基于MapReduce V2编写海量日志的简单分析需求26日模块七、基于Hadoo2.*的Hive实战技巧(基于京东数据)l Hive和Pig架构和理论基础 l Hive的作用和原理说明l Hadoop仓库和传统数据仓库的协作关系l Hadoop/Hive仓库数据数据流l Hive部署和安装l Hive Cli的基本用法l HQL基本语法l 京东评论数据分析开发技巧详解 使用JDBC 连接Hive进行查询和分析 使用正则表达式加载数据 HQL高级语法 编写UDF函数 编写UDAF自定义函数 使用Sqoop进行数据分析 使用Oozie和HUE介绍 动手安装Hive,并验证是否安装成功
8、现场解决启动、部署问题,并总结解决问题的方法 使用Hive创建自己的数据仓库 使用Hive在数据仓库上进行增删改查操作模块八、内存计算框架Spark实战l 深入Spark核心架构l Spark集群配置介绍开发环境配置l 搭建Intellij开发环境l Spark应用案例编程 RDD 缓存策略介绍 transformation action lineage 容错处理 宽依赖与窄依赖 Spark on Yarn实践 Python简介 PySpark API27日l 模块九、Spark计算模型与核心机制l Spark计算模型l park程序模型l 弹性分布式数据集l Spark算子分类及功能l Sp
9、ark工作机制l Spark应用执行机制l Spark调度与任务分配模块l Spark I/O机制l 序列化、压缩l Spark块管理l Spark通信模块l 通信框架AKKAl Client、Master和Worker间的通信l 容错机制、Lineage机制l Checkpoint机制l Shuffler机制实战内容(现场实验环节) 实践RDD的转换函数:map、filter、flatMap、sample、 groupByKey、reduceByKey、 union、join、distinct、cartesian、mapValue、subtract、cache、persist 实践RDD的动
10、作函数:foreach collect collectAsMap reduceByKeyLocally lookup counmt top reduce fold aggregate saveAsTextFile saveAsObject Spark应用提交工具(spark-submit,spark-shell) RDD特性、常见操作、缓存策略 RDD Dependency、Stage常、源码分析 Spark on YARN运行模式及测试模块十、基于电商日志数据的Spark SQL开发l 使用Spark SQL的原因l Spark SQL的发展历程l Spark SQL的性能l Spark S
展开阅读全文