大数据预处理技术第2章Kettle工具的初步使用课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据预处理技术第2章Kettle工具的初步使用课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 技术 Kettle 工具 初步 使用 课件
- 资源描述:
-
1、数据导入与预处理应用-第二章Kettle工具的初步使用目录0102Kettle的安装Kettle使用简介内容简介本章首先介绍Kettle工具的安装及基本概念,然后通过一个案例实操介绍Kettle工具的使用。本章重要的内容如下:Kettle的安装Kettle的安装转换的基本概念可视化编程及调试Kettle的安装定时启动转换123401Kettle的安装Kettle的安装Kettle开源JAVA编写多平台可视化Kettle的安装Kettle 的特点可视化丰富的工具类支持各类数据源除了支持各种关系型数据库,HBase MongoDB这样的NoSQL数据源外,还支持Excel、Access这类小型的数
2、据源强大的处理功能除了选择、过滤、分组、连接和排序这些常用的功能外,还支持Java表达式、正则表达式、java脚本、Java类、python等代替了完成数据转换任务的手工编码,降低了开发难度包含数据的剖析、清洗、校验、抽取、转换和加载等各类常见的ETL类支持多平台开源免费开源,良好的社区支持可以在Window、Linux、Unix上运行Java的安装 登录Java的官网后,进入到下载页面:http:/ FilesJavajdk-10。Java的安装Java的安装Java环境变量的配置环境变量名称环境变量值配置方式JAVA_HOMEC:Program FilesJavajdk-10(注:此为安装
3、路径)新建CLASSPATH.;%JAVA_HOME%libdt.jar;%JAVA_HOME%libtools.jar新建Path.;%JAVA_HOME%bin;%JAVA_HOME%jrebin追加Java的安装右键点击“我的电脑”,在弹出的选项栏中点击“属性”Java的安装点击“高级系统设置”。Java的安装点击“环境变量(N)”。Java的安装点击“系统变量(S)”栏目下的“新建(W)”。Java的安装 以新建的方式配置JAVA_HOME环境变量。在“变量名(N):”填入JAVA_HOME,在“变量值(V):”填入C:Program FilesJavajdk-10。填写完毕后,点击“
4、确定”完成新建环境变量JAVA_HOME的配置。Java的安装参考JAVA_HOME环境变量的配置操作完成CLASSPATH环境变量的配置。CLASSPATH环境变量的值为.;%JAVA_HOME%libdt.jar;%JAVA_HOME%libtools.jar,填写完毕后,点击“确定”,完成新建环境变量CLASSPATH的配置。Java的安装在“系统变量(S)”栏目中,点击Path环境变量,接着点击“编辑(I)”按钮,以追加的方式开始配置Path环境变量。Java的安装在“编辑环境变量”弹框中,点击“新建(N)”按钮Java的安装在光标位置,增添.;%JAVA_HOME%bin;%JAVA
5、_HOME%jrebin,点击“确定”完成Path的配置。配置完毕后,点击所有弹框的“确定”按钮,关闭所有弹框,返回到桌面。Java的安装在命令窗口中输入java version和javac命令,有如下输出提示,则Java的环境变量配置正确。Kettle的下载安装与spoon启动 Kettle作为一个独立的压缩包发布,可以从https:/ Windows桌面快捷方式。创建快捷方式后,右键单击新创建的快捷文件,在弹出菜单中选择属性。打开的属性对话框里显示了快捷方式标签。在这个标签下“更改图标”按钮可以为这个快捷方式选中一个容易识别的图标,一般选择 Kettle目录下的spoon.ico文件。Ke
6、ttle的下载安装与spoon启动修改spoon.bat的图标02Kettle的使用简介Kettle的使用简介 转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库。转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。除了步骤和跳,转换还包括了注释,注释是一个小的文本框,可以放在转换流程图的任何位置。注释的主要目的是使转换文档化。转换的基本概
7、念转换的基本概念步骤是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能。例子显示了两个步骤,分别为“表输入”和“Microsoft Excel 输出”。配置“表输入”步骤的参数,可以使得这个步骤从指定的数据库中读取指定关系表的数据;配置“Microsoft Excel 输出”步骤的参数,可以使得这个步骤向指定的路径创建一个Excel表格,并写入数据。当这两个步骤用跳(箭头连接线)连接起来的时候,“表输入”步骤读取的数据,通过跳,传输给了“Microsoft Excel 输出”步骤。最终,“Microsoft Excel 输出”步骤把“表输入”所读取的数据
8、,写入到Excel表格中。这个跳,对“表输入”而言,是个输出跳;对“Microsoft Excel 输出”而言,是个输入跳。转换的基本概念步骤的关键特性每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)步骤之间通过跳进行数据行的单向传输。大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为轮流发送和复制发送。在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎同时运行。除了具备有上面这些共性功能,每个步骤都有明显的功能区别,这可以通过步骤类型体现步骤需要有一个唯一性的名字转换的基本概念 转换的跳就是步骤之间带箭头的连线,跳定义了步骤之间进行数据传输的单向通道。从
9、程序执行的角度看,跳实际上是两个步骤线程之间进行数据行传输的缓存。这个缓存被称为行集,行集的大小可以在转换的设置里定义。当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。注意:因为在转换里每个步骤都依赖前一个步骤获取字段值,所以当创建新跳的时候,跳的方向是单向的,不能是双向循环的。转换的基本概念不可能定义一个执行的顺序,也不可能确定一个起点步骤和终点步骤。因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动。每个步骤从它的输入跳中读取数据,并把处理过的数据写到输出跳,直到输入跳里不再有数据,就中止步骤
10、的运行。当所有的步骤都中止了,整个转换就中止了程序角度功能角度转换有明确的起点步骤和终点步骤。例子中显示的转换起点就是“表输入”步骤(因为这个步骤生成数据行)。终点就是“Microsoft Excel 输出”步骤(因为这个步骤将数据写到文件,而且后面不再有其他节点)转换转换的基本概念字符类型数据IntegerBigNumberDateBinary数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包括的数据类型。BooleanStringNumber双精度浮点数带符号长整型(64位)任意精度数值带毫秒精度的日期时间值取值为true和 false的布尔值二进制字段可以包括图形、声
展开阅读全文