KETTLE使用培训.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《KETTLE使用培训.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- KETTLE 使用 培训
- 资源描述:
-
1、Kettle使用培训使用培训部门:部门:EOMS讲师:刘晓源讲师:刘晓源第1页,共38页。目录 目的目的 Kettle介绍介绍 Kettle实战实战 使用原则使用原则第2页,共38页。目的 了解Kettle的作用与使用。第3页,共38页。Kettle介绍 目的目的 Kettle介绍介绍 家族介绍家族介绍 概念定义概念定义 Kettle实战实战 使用原则使用原则本节目标本节目标:1、知道Kettle是什么,能做什么。2、知道Kettle的一些概念。第4页,共38页。总体介绍 Kettle是一个ETL(Extract-Transform-Load)工具集,它为用户管理来自不同数据库的数据,描述自己
2、要做的数据操作提供图形化的操作界面。第5页,共38页。总体介绍使用使用Kettle能为我们项目带来以下好处:能为我们项目带来以下好处:对于业务人员 转换和工作(Job)以步骤流的方式呈现,更加直观,业务人员与开发人员沟通时可以把注意力集中在业务上。对于开发人员 1、图形化界面更加直观,开发人员上手快,加快开发效率。即使是二次开发,图形化的步骤展现使二次开发人员更快进入开发状态,不用把精力浪费在代码阅读和业务逻辑分析上。2、Kettle的javascript步骤运行开发人员通过编写JavaScript代码实现业务逻辑,并且允许在JavaScript调用java文件来实现复杂数据采集过滤逻辑。这样
3、,开发人员只须把注意力放在写业务采集逻辑上就可以了,降低了开发采集的难度。3、Kettle提供方便的调试工具和详细的日志文件,方便开发人员跟踪调试。4、Kettle提供计算I/O、数据库读/写次数工具,方便开发人员在开发完成后观察,以便性能调优。第6页,共38页。总体介绍要在项目上更好的发挥要在项目上更好的发挥Kettle的优势,还有以下一些问题待解决:的优势,还有以下一些问题待解决:1、调用方式问题:Kettle只提供了简单的调用方式。自己本身不提供轮训等工具。目前测试通过的只用两种:一种是在图形界面上点运行。另一种是在命令行模式输入运行命令。如果要实现轮训采集,需要通过Kettle的API
4、实现调用,即需要融合Kettle。并且如果涉及到及时采集,除了融合问题,对采集的算法和性能也有很高的要求。2、性能问题:由于Kettle只是一个很灵活的采集工具,实现同一个采集的方式可以有很多种,性能的瓶颈还是在采集算法上(后面还有一些提高性能的原则),所以为了更好的使用Kettle,需要整理一些常用的采集算法和采集模板。3、Kettle本身的问题:Kettle属于开源产品,该产品还在不断的完善中,虽然有一个比较详细的使用文档,但是并不是很详细,很多细节必须上论坛找或更多的只能通过看源代码并且写demo来测试验证。而且由于Kettle的实现是基于多线程的,存在一定的线程bug。第7页,共38页
5、。Kettle介绍 目的目的 Kettle介绍介绍 总体介绍总体介绍 概念定义概念定义 Kettle实战实战 使用原则使用原则第8页,共38页。KETTLE介绍 Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。例如,从EOMS系统抽取信息,并把这些信息存储到一个文本文件里的转换任务如下:第9页,共38页。KETTLE介绍第10页,共38页。KETTLE介绍PAN 允许你批量运行由Spoon设计的ETL转换(例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。CHE
6、F 允许你创建任务(Job)。任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。(下面是一个Chef的任务图)KITCHEN 允许你批量运行用允许你批量运行用Chef设计的设计的jobs。(例如用。(例如用scheduler)KITCHEN 允许你批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。第11页,共38页。Kettle介绍 目的目的 Kettle介绍介绍 总体介绍总体介绍 家族介绍家族介绍 Kettle实战实战 使用原则使用原则第12页,共
7、38页。概念介绍 本节介绍本节介绍Kettle中的两个重要的定义:中的两个重要的定义:Transformation(转换)(转换)和和 Job(工作),用(工作),用Kettle可以话可以话Transformation 图和图和Job图。图。Job与Transformation的差别是:Transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等等,甚至可以是另外一个Job。Transformation(转换)定义(转换)定义 如右图,如右图,Transformation主要是由主要是由Step 和和H
8、op组成。组成。Transformation主要包括几个主要包括几个 原型概念:原型概念:Step、Hop、InputStream、OutputStream、Row、Value。下面给出定义。下面给出定义Step(步骤)如右图的“Table Input”,每个Step就是一个元操作。Hop(跳跃线)连接Step的线,代表了数据的流向。InputStream(输入流)输入Step的数据流OutputStream(输出流)从Step输出的数据流Row(记录行)InputStream中存在多个Row,Row存在多个Value。Value(值)值,带类型的值,例如String类型的值。第13页,共38
展开阅读全文