书签 分享 收藏 举报 版权申诉 / 25
上传文档赚钱

类型《大数据专业英语》课件—04ETL.ppt

  • 上传人(卖家):ziliao2023
  • 文档编号:6135669
  • 上传时间:2023-06-02
  • 格式:PPT
  • 页数:25
  • 大小:2.10MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《《大数据专业英语》课件—04ETL.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    大数据专业英语 数据 专业 英语 课件 04 ETL
    资源描述:

    1、大数据专业英语教程ETL Unit 4Contents New Words Abbreviations Phrases参考译文参考译文New WordsNew WordsNew WordsNew WordsPhrasesPhrasesAbbreviationsListening to Text AETLETL是一种数据集成,指用于整合来自多个源的数据的三个步骤(提取、转换、加载)。它通常用于构建数据仓库。在此过程中,从源系统获取(提取)数据,将其改变(转换)为可以分析的格式,并存储(加载)到数据仓库或其它系统中。提取、加载、转换(ELT)是一种替代而不是相关的方法,旨在将处理推送到数据库以提高

    2、性能。参考译文参考译文1.为什么ETL很重要多年来,企业依靠ETL流程来获得数据的整合视图,以便做出更好的商业决策。如今,这种集成来自多个系统和源的数据的方法仍然是组织数据集成工具箱中的核心组件。与企业数据仓库(静态数据)一起使用时,ETL为业务提供深入的历史背景。通过提供整合视图,ETL使业务用户可以更轻松地分析与其计划相关的数据并形成报告。ETL可以提高数据专业人员的工作效率,因为它编写并重用了移动数据的流程,而无需编写代码或脚本的技术技能。随着时间的推移ETL不断发展,它可以支持像流数据这样的新集成需求。组织需要ETL和ELT将数据整合在一起,保持准确性并提供所需的审计,以便把数据入库、

    3、对数据进行分析和形成报告。参考译文参考译文2.如何使用ETL核心ETL和ELT工具与其它数据集成工具以及数据管理的其它方面(例如数据质量、数据治理、虚拟化和元数据)协同工作。今天的流行用途包括以下几个方面。2.1 ETL和传统用途ETL是一种经过验证的方法,许多组织每天都依赖这种方法例如需要定期查看销售数据的零售商,或寻求准确描述索赔的医疗服务提供者。ETL可以组合并显示来自仓库或其它数据存储的交易数据,以便业务人员以他们能够理解的格式查看。ETL还用于将数据从老旧系统迁移到具有不同数据格式的现代系统。它通常用于整合来自业务合并的数据,以及从外部供应商或合作伙伴收集和加入数据。参考译文参考译文

    4、2.2大数据的ETL转换和适配器获得最多数据的人获胜。虽然这不一定正确,但轻松访问广泛的数据可以为企业提供竞争优势。如今,企业需要访问各种大数据来自视频、社交媒体、物联网(IoT)、服务器日志、空间数据、开放或众包数据等。ETL供应商经常为其工具添加新变化,以支持这些新兴需求和新数据源。适配器允许访问各种各样的数据源,数据集成工具与这些适配器交互以便有效地提取和加载数据。参考译文参考译文2.3 用于Hadoop的ETL以及更多ETL已经发展到支持集成,而不仅仅是传统的数据仓库。高级ETL工具可以将结构化和非结构化数据加载并转换到Hadoop中。这些工具从Hadoop并行读取和写入多个文件,简化

    5、了数据合并到公共转换过程。一些解决方案包含针对在Hadoop上运行的事务和交互数据的预构建ETL转换库。ETL还可以与跨事务系统、运营数据存储、BI平台、主数据管理(MDM)中心和云相集成。2.4 ETL和自助数据访问自助数据准备是一种快速发展的趋势,它将访问、混合和转换数据的能力交付给业务用户和其它非技术数据专业人员。这种方法可提高组织敏捷性,并使IT免于为业务用户以不同格式配置数据的负担。花费在数据准备上的时间更少,花费在洞察本质上的时间更多。因此,业务和IT数据专业人员都可以提高工作效率,组织可以扩展数据使用以做出更好的决策。参考译文参考译文2.5 ETL和数据质量ETL和其它数据集成软

    6、件工具用于数据清理、分析和审计确保数据值得信赖。ETL工具能与数据质量工具集成,ETL供应商在其解决方案中包含了相关工具(例如用于数据映射和数据沿袭的工具)。2.6 ETL和元数据元数据有助于我们了解数据的沿袭(来自何处)及其对组织中其它数据资产的影响。随着数据架构变得越来越复杂,跟踪组织中不同数据元素的使用和相关性非常重要。例如,如果将Twitter帐户名添加到客户数据库,则需要会对哪些有影响,例如对ETL作业、应用程序或报告的影响。参考译文参考译文3.它如何工作ETL与许多其它数据集成功能、流程和技术密切相关。3.1 SQL结构化查询语言是访问和转换数据库中数据的最常用方法。3.2转换、业

    7、务规则和适配器提取数据后,ETL根据业务规则将数据转换为新格式。然后将转换后的数据加载到目标中。参考译文参考译文3.3数据映射数据映射是转换过程的一部分。映射为应用程序提供了如何获取其需要处理的数据的详细说明。它还描述了哪个源字段映射到哪个目标字段。例如,网站活动的数据馈送中的第三个属性可能是用户名,第四个可能是该活动发生时的时间戳,第五个可能是用户点击的产品。使用该数据的应用程序或ETL过程必须将来自源系统的这些相同字段或属性(即,网站活动数据馈送)映射为目标系统所需的格式。如果目标系统是客户关系管理系统,它可能首先存储用户名,第五个存储时间戳,它可能根本不存储所选产品。在这种情况下,在从源

    8、读取数据并将数据写入目标之间,可能会发生以预期格式(以正确顺序)进行日期格式转换。参考译文参考译文3.4脚本ETL是一种自动化脚本(指令集)的方法,这些脚本在幕后运行以移动和转换数据。在ETL之前,脚本分别用C或COBOL编写,以在特定系统之间传输数据。这导致多个数据库运行大量脚本。早期的ETL工具以批处理方式运行在大型机上。ETL后来迁移到UNIX和PC平台。今天的组织仍然使用脚本和程序化数据移动方法。3.5 ETL与ELT先有ETL。后来,组织增加了ELT,它作为一种补充方法。ELT从源系统中提取数据,将其加载到目标系统,然后使用源系统的处理能力进行转换。这加速了数据处理,因为它发生在数据

    9、所在之处。参考译文参考译文3.6数据质量在集成数据之前,通常会创建一个临时区域,可以清理数据,数据值可以标准化(NC和North Carolina,Mister和Mr.,或Matt和Matthew),可以验证地址并删除重复项。许多解决方案仍然是独立的,但数据质量程序现在可以作为数据集成过程中的转换的一部分来运行。3.7调度和处理ETL工具和技术可以提供批量调度或实时功能。还可以在服务器中处理高容量数据,也可将处理推迟到数据库级别。与专用引擎相比,这种在数据库中处理的方法避免了数据重复,并且防止了在数据库平台上需要额外容量。参考译文参考译文3.8批处理ETL通常指在所谓的“批处理窗口”期间在两个

    10、系统之间移动大量数据的批处理过程。在此设定的时间段内例如中午和下午1点之间数据同步时,源系统或目标系统不会发生任何操作。大多数银行都会进行夜间批处理以解决全天发生的交易。3.9 Web服务Web服务是一种基于因特网的方法,可以近乎实时地向各种应用程序提供数据或功能。此方法简化了数据集成过程,可以更快地从数据中提供更多价值。例如,假设客户联系你的呼叫中心。你可以创建一个Web服务,只需将电话号码传递给从多个源或MDM中心提取数据的Web服务,即可亚秒内返回完整的客户配置文件。通过更丰富的客户知识,客户服务代表可以更好地决定如何与客户进行交互。参考译文参考译文3.10主数据管理(MDM)MDM是将

    11、数据放到一起以创建跨多个源的单个数据视图的过程。它包括ETL和数据集成功能,将数据混合在一起并创建“黄金记录”或“最佳记录”。3.11数据虚拟化虚拟化是一种灵活的方法,可以将数据混合在一起,创建数据的虚拟视图,而无需移动数据。数据虚拟化与ETL不同,因为即使仍然发生映射和连接数据,也不需要物理临时表来存储结果。这是因为视图通常存储在内存中并缓存以提高性能。某些数据虚拟化解决方案(如SAS Federation Server)提供动态数据屏蔽、随机化和散列函数,以保护敏感数据免受特定角色或组的影响。SAS还在生成视图时提供按需数据质量管理。参考译文参考译文3.12事件流处理和ETL当数据速度增加到每秒数百万个事件时,事件流处理可用于监视数据流、处理数据流并帮助做出更及时的决策。参考译文参考译文Thank You!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:《大数据专业英语》课件—04ETL.ppt
    链接地址:https://www.163wenku.com/p-6135669.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库