DATASTAGE的介绍及基本操作课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《DATASTAGE的介绍及基本操作课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DATASTAGE 介绍 基本 操作 课件
- 资源描述:
-
1、DATASTAGE 介绍及基本操作内容提要: 一、一、datastage datastage 介绍介绍 二、如何安装二、如何安装datastagedatastage 三、配置三、配置datastage datastage 工程工程 四、设计并运行四、设计并运行datastagedatastage的的jobjob 五、操作元数据五、操作元数据 六、操作关联数据六、操作关联数据 七、操作约束条件及数据来源七、操作约束条件及数据来源 八、定义查找使用的哈希文件八、定义查找使用的哈希文件 九、聚合数据九、聚合数据 十、十、jobjob的运行及调试的运行及调试 十一、创建十一、创建BasicBasic表
2、达式表达式一,一,datastagedatastage的介绍的介绍 本章主要讲解ETL的概念,datastage的介绍、组成及主要功能。 ETL概要 ETL包括数据抽取(Extract)、数据转换(Transform)以及数据加载(Load)3个阶段。 一般而言,这三个过程中有二次落地(生成中间文件)。 Ascential DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。 DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统 。包括Oracle,
3、Sybase,DB2,SQL Server,Teradata, FTP文件系统,文本文件等等。 数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能 。DS介绍:介绍:Datastage的组成:Datastage的服务器端和客户端 Datastage是C/S软件,服务器端存储所有的ds项目和元数据,由关系型数据库(RDBMS)组成。客户端具有同服务端一样的软件接口。 客户端运行于windows95或更高版本,服务端可运行于windowsNT4.0或windows2000 版本,d
4、atastage的很多版本都支持unix。 DS Administrator 在服务端管理ds的项目和服务端操作。主要用于工程的参数调整,变量设置,及command操作。 DS Designer 建立ds的job并且编译执行的程序。主要用于job的开发及编译。 DS Director运行和监控ds的job。主要用于job调试。 DS Manager允许编辑和查看在ds中存储的内容。主要用于项目管理或job的导入、导出、备份。DataStage中的Administrator 默认使用Administator来指定常规的服务端,用来增加或删除DataStage工程,并且可以设置工程的属性。 Adm
5、inistator也对于总库提供命令接口。 使用Administator的Project Propertities 工程属性的窗口,可以进行 1、在General页框中,设置Job监控的一些限制信息和Director中的其他信息。 2、在Permission页框中,设置并分配开发人员组的权限 。 3、在Tracing 页框中, 设置或取消服务端进行跟踪。 4、在Schedule 页框中, 设置调度时运行Job所用到的用户名和口令。 5、在Tunables页框中,指定Hash文件Stage的读写的缓存大小。 在DataStage中的Administrator设置常用服务器的默认值: 1、改变Li
6、cence信息。 2、设置服务端连接超时时间。DataStage中的Manager 使用DataStage中的Manager来存储和管理Job的元数据,使之可以在DataStage中的Designer中再度被使用。 元数据包括表单和文件结构和导出数据的Routines的转换等等。 Manager是DataStage存储的一个重要的部分,可以用来加入表单和文件的结构,在左侧分支树中显示Routines、Transforms和Jobs。 自定义的Routines和Transforms也在DataStage中的Manager里创建。DataStage中的Designer DataStage中的Des
7、igner允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导入数据仓库的表单之中。 Designer提供一个数据流程的模式,轻松将设置和Job的设计有机的组成。 使用Designer,可以:1、指定数据如何抽取。 2、指定数据的转换规则和进行转换。 3、使用参考性质的LookUp到数据集市中编辑数据。 a)例如,如果销售的记录集包括CustomerID,可以在CustomerMaster表中使用LookUp查找到Customer的名称。 b)当需要连接数据集市并使用查询,可以快速的进行访问。 4、对数据进行整合。 5、在定义的约束条件中将基础数据分割成为
8、多个输出的连接。 在Tools菜单中可以轻松的于Director,Designer和Manager之间切换。DataStage中的Director 使用Datastage的Director可以对设计的job进行验证、运行、任务调度和监控的工作。也 可以针对job 的运行查看运行的聚合统计情况。在Datastage中进行开发 在Administrator中定义全局的和项目属性。 在Datastage中的Manager里导入定义源的元数据和目标的元数据。 在Datastage中的Designer中验证和编译job。 在Datastage中的Director中验证、运行、和监控job。 1、定义工程
9、的属性在Administrator中。 2、打开工程。 3、导入元数据,在job中定义格式、读入或写入在Manager中。 4、设计job在Designer中。a) 定义数据的抽取(读取)。b) 定义数据流程。c) 定义数据的集合。d) 定义数据的转换。e) 定义数据的约束条件。f ) 定义数据的加载(写入)。g) 定义数据的聚合。 5、编译和调试job在Designer中。 6、运行和监控job在Director中。Datastage的工程管理 所有的工作都在一个工程中。 在安装过后,需要建立一个工程,这是安装必选的项目。 在使用它工作之前,要登录这个工程。 可以在工程间进行导入和导出Dat
10、astage的项目内容。 多个用户可以在同一时间使用同一工程,但是不能同时编辑同一个项目。所有的工作都在Datastage的工程里进行。在做任何事之前,那些具有同样管理权限的人,都要先打开一个工程,即进行登录。在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在Administrator中的Project页框中另增加其它工程。一个工程关联着一个目录,这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个工程,即登录这个工程。工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以在它们之间导入或导出项目。多用户可以在同一时间使
11、用一个工程中工作,但是Datastage禁止在同一时间由多个用户访问同一个job。Datastage测试 问题一:Datastage的Designer是用来建立和编译job、用来进行数据的抽取、转换和加载即ETL。(Yes/No)答案一:Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage)拖拽到设计区域中,经过建立和编译,Job就可以执行,用来进行数据的抽取、转换和加载。 问题二:Datastage的Manager用来执行编译通过的Jobs。(Yes/No)答案二:No, Datastage的Manager是用来管理元数据的,如表单结构,内置和自定义Routines等的,使D
12、atastage用来管理资源存储的。 问题三: Datastage的Director用来执行编译通过的Jobs。(Yes/No)答案三:Yes,使用Director来对编译通过的job进行验证或者运行,也可以在jobs运行过程中对其进行监控。 问题四:Datastage的Administrator是用来定义全局变量和设置工程属性的。(Yes/No)答案四:Yes,可以在Administrator中设置工程中使用的全局变量和必要属性,如连接数据库超时,登录者权限等等。第二章 如何安装Datastage下面的讲解中,将可以了解到: 在Windows系统中安装Datastage服务端。 建立一个Da
13、tastage的工程。 安装Datastage的客户端。 Datastage 的服务端要首先安装,之后才可以安装Datastage 客户端,服务端能都安装在WinNT、Windows2000或者UNIX系统中,这个模块将介绍在Windows环境下进行安装。系统的具体配置依赖于所要安装的Datastage 版本,在安装盘上找到最接近的系统需求配置。安装Datastage 服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息: 1,注册号(序列号)。 2,工程数量。在Datastage服务端可以建立的最大工程数量。包括新建的工程,也包括对先前建立的工程进行加上升级。 3,到期时间。 4,授权
14、代码。在许可信息中,这个信息必须被正确输入的。 安装向导会指导通过以下步骤进行: 1,输入许可信息。 2,指定服务器的路径。 3,选择程序的文件夹。 4,创建一个新的工程或升级已经存在的工程。安装Datastage 首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。在Datastage Server安装的过程中会提示用户建立一个工程。在安装Datastage Server端以后,需要安装Datastage Client端,鼠标点击软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。 安装有Datas
15、tage服务端的机器,必须运行着。 需要运行Datastage的客户端。 打开Datastage的控制面板,来停止或启动服务端。 当再次安装Datastage的时候,会停止服务端。为了保证Datastage客户端程序的正常运行,必须保证Datastage的服务器保持运行状态。在Windows2000的控制面板中打开Datastage的控制面板,可以启动或停止全部的Datastage服务。点击可以启动全部的服务或者停止全部的服务。在安装或重新安装Datastage的时候,这些服务一定要全部停止。安装Datastage客户端 在安装Datastage服务端之后。 可以安装在WinNT,Window
16、s2000以及WinXP上。 Datastage产品的许可用于安装Datastage的客户端。 Datastage的操作许可只能用于安装Director和Administrator。 Datastage的客户端必须在Datastage的服务端安装过后才可以进行安装,客户端能够安装在Windows95、Windows98、WindowsNT、Windows2000以及WindowsXP操作系统上。这里有俩个版本的Datastage:1,开发版本的Datastage,包含了解所有的客户端应用程序。2,操作员版本的Datastage只包含了需要用到的运行和监控Job的应用程序,即Director和A
17、dministrator。 安装开发版本的Datastage,需要有Datastage开发版的许可。 安装操作员版本的Datastage,需要有Datastage的Director的许可。 许可包括以下几个信息: 1,序列号 2,用户限制 3,到期时间 4,授权认可代码 这些信息必须是正确的数据。第三章 配置 Datastage 工程下面的讲解中,将可以了解到。 在Datastage的 Administrator中设置工程属性。 在Datastage的Administrator中设置用户的权限。Datastage工程属性 建立或者删除Datastage工程。 设置Datastage工程的默认属
18、性。 修改Datastage工程属性的方法。登录Datastage的Administrator。选择要修改属性的工程。 Datastage中所有的开发工作都在一个Datastage的工程中,在安装Datastage服务端时,默认就已经建立了一个工程,可以使用Administrator进行工程的控制。每个工程都有其关联的目录,目录存储了在工程中建立的项目,如Jobs、元数据、自定义的Routines等等。在一个工程中工作之前,必须要先打开它(即进行登录)。在使用Datastage的Administrator时,可以设置默认的工程属性。设置Datastage工程属性 选择要进行修改的工程,点击“P
19、roperties”工程属性的“General”页框点击Datastage的Administrator的“Properties”按钮,打开工程属性的窗口,这里有5个页框(“Mainframe”页框只有在许可支持大型机的Jobs的时候可用),默认打开的“General”页框。如果选择“Enable job administrator in Director”的选择项,那么在不打开Administrator的情况下在Datastage的Director中可以运行一些管理级别的函数。在Director中运行一个Job的时候,事件被写入Jobs的运行的日志,例如:记录了何时开始运行Jobs,何时停止,
20、何时终止。日志记录的事件增长量很大,“Auto-purpe of job log”选择框可以让指定用什么条件来筛选这些事件。可以限制记录时间的每天的数量或者运行Jobs运行的数量。工程属性的“Permissions”页框 使用这个页框可以设置访问和使用Datastage的用户组权限。 所有的Datastage用户中,在登录Datastage之前,都必须拥有一个公认的,属于自己的用户角色,使之用来进行登录,这样可以用来防止匿名的方式使用Datastage工程。 这里有三种Datastage用户角色:1, Datastage Developer,可以访问Datastage工程 全部的范围。2, D
21、atastage Operator,可以运行、释放、 Datastage的Jobs。3, Datastage Production Manager,可以管理Datastage 产品组件。工程属性的“Tracing”页框 在这个页面设置是否在Datastage服务端进行跟踪处理。 Datastage服务端进行跟踪处理默认是无效的。 当使其有效, Datastage客户端运行项目的时候,所有的记录信息都要在Datastage服务端进行监控,并写入监控文件。使用这些底层系统知识可以帮助找到Datastage客户端的问题所在,如果跟踪设置为有效,当调用一个Datastage的客户端的时候,用户会收到一
22、些警告的信息。 警告: 跟踪会消耗Datastage服务器大量的系统资源,除非用户需要诊断重大的问题,一般不建议设置跟踪有效。 工程属性的“Schedule”页框 使用使用“Schedule”页框,来指页框,来指定在选择的项目中运行计划任务的定在选择的项目中运行计划任务的jobs的用户名和口令,如果没有指的用户名和口令,如果没有指定,定,Jobs会在当前系统的计划任务会在当前系统的计划任务的用户名下运行。的用户名下运行。 工程属性的“Tunables”页框 在在“Tunable”页框中,可以页框中,可以指定当用来读取指定当用来读取Hash文件记录时文件记录时的缓存的大小,的缓存的大小,Hash
23、文件大多数文件大多数用于查找操作,这部分介绍会在用于查找操作,这部分介绍会在下面的介绍中进行。下面的介绍中进行。第四章 设计并运行Datastage的Job 下面的讲解中,将可以了解到: 描述什么是Datastage的Job。 一步步讲述如何建立Datastage Job。 描述Link和Stage。 识别不同类型的Stage。 设计一个简单抽取和加载的Job。 编译、验证和运行Job。 监控Job的执行。什么是JobJob开发的浏览 在Manager导入数据源和目标数据库的数据结构定义。 在Designer加入Stage定义数据的抽取和加载。 加入Transformer和其它的Stage来定
24、义转换。 从源数据到目的数据,加入Link来定义数据的流向。 编译Job。 在Director中,验证、运行和监控Job。 在这个讲解中,将通过一个单一在这个讲解中,将通过一个单一Job的过程第一步,的过程第一步,着手定义元数据。着手定义元数据。 Designer的工作区域 中间偏右是Datastage的设计区域,可以将Stage和Link从工具的板块上拖动过来放在上面,左边是“Repository”(存储)窗口,显示的是Manager中的分支。 Manager中的分支,就像Jobs和表定义一样可以直接拖拽到设计区域,点击“ViewRepository”来显示“Repository”窗口。 点
25、击“ViewProperty Browser”来显示“Property Browser”窗口,显示在设计区选择的项目的属性。Designer的工具栏 工具栏中的一些图标可以快捷的调用一些Datastage的内部函数,更加方便进行Jobs的设计工作。Designer的Stage工具面板 工具面板中包含描述的图标,可以将其加入到Jobs设计当中。 当安装Datastage的时候,很多的Stage都会自动地进行安装,也可以根据特定的目的安装另外的Stage,这些被叫做插件。 例如,那个叫做“Sort”的插件就是用来对数据排序的。 插件的介绍将在以后的讲解来介绍。下面将部分的Stage进行简单的说明(
展开阅读全文