书签 分享 收藏 举报 版权申诉 / 23
上传文档赚钱

类型大数据处理架构介绍课件.pptx

  • 上传人(卖家):ziliao2023
  • 文档编号:5971048
  • 上传时间:2023-05-19
  • 格式:PPTX
  • 页数:23
  • 大小:1.61MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据处理架构介绍课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据处理 架构 介绍 课件
    资源描述:

    1、 大数据处理架构介绍大数据处理架构介绍大数据处理架构介绍1.1.传统数据仓传统数据仓库库的数据处理技的数据处理技术术及思考及思考2.2.大数据环境下对于公共大数据环境下对于公共数数据及行据及行为为数据数据的的数据数据 处理技术处理技术3.3.由传统数据仓库到大数由传统数据仓库到大数据据数据仓数据仓库库的数据的数据处处理理 实践思考及建议实践思考及建议该过程涵盖传统数据仓库的标准流程和 数据处理规范数据处理方法和实践同样适用于数据平 台数据处理传统数据仓库的数据处传统数据仓库的数据处理理技术技术从我参与某大型数据仓库项目经历为例来分享:传统数据仓传统数据仓库库的数据处理技术是什的数据处理技术是什

    2、么么?516 May 2016传传统统数数据据仓仓库的数据库的数据处处理理技技术术-概概念定义念定义External and Internal Data SourcesCOTSAppsDevelopAppsExternalAppsCOTSComponentDevelopedComponentExternalComponent/EmployeeClient EmployeesPortalIdentity and AccessManagementReporting FunctionsReport ManagementReportCreationAd-hocReportingData analysi

    3、s and ForecastInteractive ReportHandlingGDCPMB2DMUplift ServicesReporting RepositoriesVertical Reporting RepositoriesReporting DWCRDWCRDWDWService Management,AvM/CpM/SLM (Regional Deployment)Base ServicesData Collection,Extraction,and TransportationESMService LinesSLMB1DMCapacity Management (America

    4、s/EMEA)616 May 2016传传统统数数据据仓仓库的数据库的数据处处理理技技术术-业业务务定定义义Regional DeploymentEnd User EnvironmentEmployeesClientsReport Creation and DeliveryReport AccessReportManagementCode forStatic ReportsAd-hocReportingData Analysis&ForecastReporting RepositoriesReporting Data warehouse (DW)BaseData Collection and

    5、TransportationETLRemote Data Extraction Transfer(DRS)Objects of Management(Data Sources)ServerNetworkStorageBackupDatabasesUtility Computing(AIS)Call ManagementKnowledgeManagementSecurity (Antivirus/Patch Compliance)Managed Web ServicesERPMessagingWeb/AppServersWeb ChatTelephonyCustomerSatisfactionS

    6、ervice Operations ManagementService RequestManagementConfigurationManagementAssetManagementService DeskManagementService ManagementPerformance Data:InfrastructurePerformance Data:Software and ServicesOther RepositoriesUpliftGDCPMCapacity Management (Americas/EMEA)Service Management,AvM/CpM/SLM (Regi

    7、onal Deployment)OblicoreService Level Management716 May 2016传统数据仓库传统数据仓库的数据的数据处处理理技技术术-逻逻辑辑定定义义Create/Manage/Deliver ReportsUser authentication dataUser authorization dataObjects of ManagementData SourcesUsers,roles,etc.End User EnvironmentClientsEmployees Support Operations SL personnelOn-boardingT

    8、eamOn-boarding Tools(*)Identity&Access MgmtOn-boarding Tools(*)On-board devices,apps,services,etc.On-board devices,apps,services,etc.On-boarding Tools(*)Report Management and DeliveryInteractive ReportsStatic ReportsAd-hocData Reporting AnalysisBase Services (CpM,SLM)Reporting Data WarehouseRequest

    9、ManagementAldeaAsset ManagementOVAC/HPAMConfig.ManagementESL/JetService DeskePollACD systemsService LinesSOM/WorkflowOVSC/SMAvM/CpM/SLM3rd party toolsSCOMOVR/HP ReporterBMC Visualizer BACReportingSolutionCapacity Uplift ServicesData ModelLvl0Lvl1Lvl2DataModelGDCPMStatic ReportsConfig,RM TreeStructur

    10、e,etc.WorkflowRequestAssetConfig ItemsTelephony,Survey,Web ChatSL specificOther ITOReports PDF,DOC,XLSReporting SolutionSLMUplift ServicesDataModelOblicoreSLMAdapter+SLM Reports+Data for analysisPerformance DataPerformance MetricsBusiness Objects Enterprise OracleCreate/Update Facts/DimensionsData E

    11、xtraction,Transport,Transform,LoadInformaticaReporting and AnalyticsExtract/Receive Source DataEMI Tools(OVPI,OVPA,SPI,etc.)ErwinCapacity and PerformanceMetricsfilefileDRSDRS816 May 2016传统数据仓库传统数据仓库的数据的数据处处理技理技术术-物物理理定义定义I*ntranetCustomer NetworkXX Trusted NetworkMMIWeb TierHP SiteminderWeb AgentISA

    12、PI Jakarta PluginLogin Web PageApp TierBODatabaseDWLoad BalancersClient certificate Function BO App Server Software BO XI R2 Platform Windows Function Reporting HTTP Server Software Apache Platform Windows Function Reporting DB Server Software Oracle Platform HPUX Function ETL Server Software Inform

    13、atica Platform HPUX Function HP Employees Directory Software LDAP Platform?Function Authentication andAuthorization Server Software SiteMinder Platform NT/HPUX Function provides HPP Profiles Software LDAP Platform HPUX Function provides HPP API Software WebLogic Platform HPUX Function Authentication

    14、 andAuthorization Server Software SiteMinder Platform NT/HPUX Function Login HTTP Server Software MS IIS Platform WindowsSite Mi nderPorts:44001-44003HTTPSPort:443HTTPSPort:443AJP 1.3Port :8009HTTP8080Oracle/JDBC Port:1521UDP 137UDP 138TCP 139TCP 445LDAP/Port:389Oracle/JDBCPort:1521HTTPS/Port:443Sit

    15、eminderPorts:44001-44003VLAN 1VLAN 2VLAN 3DB Tier Function BO Database Software Oracle Platform HPUXOracle/JDBC Port:1521Non-HPSiteminder Web agentSRP WebHPP PolicyServersHPP WS ServersHPP DirectoryEnterprise PolicyServersEnterprise LDAP DirectoryLegacy OMCNetData SourcesAppTCP IP/PortsData SourcesA

    16、ppData SourcesAppTCP IP/PortsTCP IP/Ports916 May 2016传统数据仓库传统数据仓库的数据的数据处处理技理技术术-规规则则定义定义HP RestrictedDWLevel 0Source SystemLevel 1Level 2simple extract from the source systemDetailed data for reportingSummary data for reportingETL:Extract data from Source System for staging prior to loading into war

    17、ehouseETL:Generate Surrogate KeysCreate derived columns to support business requirements.Create additional tables to support various activity type.ETL:Create summarize view to support business requirements传统数据仓传统数据仓库库的数据的数据处处理技理技术术-设设计计定义定义前端展现数据仓库DW数据处理工具数据源传统数据仓传统数据仓库库的数据的数据处处理技理技术术-开开发发实现实现传统数据仓传

    18、统数据仓库库的数据的数据处处理技理技术术-开开发发实现实现传统数据仓传统数据仓库库的数据处理的数据处理技技术术-数据治理思考数据治理思考哪些数据丢失了或者哪些数据不可用?完整性 无论选择任何一种RDBMS,都无 法涵盖大量的非结构化业务数据准确性唯一性哪些数据未按统一格式存储?规范性基于RDBMS的数据存储并不能真实反映业务数据本源格式,文本视频,邮件在DB中的存储哪些数据的值在信息含义上 是冲突的?一致性哪些关联的数据缺失 或者未建立索引关联性 哪些数据和信息是不正确 的,或者数据是超期的?不同RDBMS对数据类型的定义精 度各有区别哪些数据是重复数据或者 数据的哪些属性是重复的哪些数据和信

    19、息是不正确 的,或者数据是超期的?准确性不同RDBMS对数据类型的定义精 度各有区别当源系统与目标系统属于不同RDBMS或字符集等情 况,可能存在字符类型不兼容问题,如:Oracle 的 date数据类型有时分秒而db2 的date数据类型不含 时分秒;oracle的Integer数据类型是8字节38位精度,db2 的Integer数据类型是4字节10位精度等等。传统数据仓传统数据仓库库的数据处理的数据处理技技术术-数据治理思考数据治理思考大数据处理架构介绍大数据处理架构介绍1.1.传统数据仓库的数据处传统数据仓库的数据处理理技术及技术及思思考考2.2.大数据环境大数据环境下下对于公共数据及行

    20、为数据对于公共数据及行为数据的的数数 据处理技术据处理技术3.3.由传统数据仓库到大数由传统数据仓库到大数据据数据仓数据仓库库的数据的数据处处理理实践思考及建议实践思考及建议大数据处理及模型开发大数据处理及模型开发埋点数据 Flume/kafka/stormScrapy pageloadLEVE0:HIVE 落地表STG表Hql:清洗标 准化LEVEL1:HIVE模型 表DW,DIM表SPARK SQLHql:聚合指标 标签生成LEVE2:分析报表层RPT,DM表公共数据 python Scrapy link用户交易数据 sqoop应用层调 用HBASE API公共数据公共数据及及行行为数据的

    21、数据处理技术为数据的数据处理技术公共数据公共数据及及行行为数据的数据处理技术为数据的数据处理技术按数据特征分类按数据特征分类结构化数据定义:目前其实专指的是关系模型数据,即以关系型数据库表形式管理的数据。绝大多数的企业业务数据都以此格式进行存放。简析:虽然从专业角度讲,结构化就是关系模型的说法并不准确。但针对目前业内现状,还是将其定义为关系模型数据为最为妥当,因为它清晰而准确地代表了我们传统上最熟 悉的企业业务数据,基本没有歧义。半结构化数据定义:半结构化与非结构化常常一同被提及,两者其实专指所有其他“非”结构化数据。但如果想更加清晰地描述,可以将“半结构化数据”定义为:那些非关系模型的、有基

    22、 本固定结构模式的数据,例如应用日志文件、XML文档、JSON文档和电子邮件等。简析:此部分数据可以用程序化格式解析处理,公共数据,行为数据多以此种格式非结构化数据定义:除去结构化与半结构化的所有数据,即没有固定结构模式的数据,例如WORD、PDF、PPT、EXL文档,以及各种格式的图片和视频等。简析:区分半结构化与非结构化数据的意义在于,目前在企业内对两者的处理方法(包 括存储、访问与分析)是不同的。非结构化数据大多采用内容管理的方法,展示上需要 采用对应的组件工具。公共数据公共数据及及行行为数据的数据处理技术为数据的数据处理技术公共数据处公共数据处理理的注的注意意点点落地后的文件时间和成功

    23、标志信息同样参与数据处理落地后的文件时间和成功标志信息同样参与数据处理合并到数据落地层(LEVEL0)后数据的落地时间和数据大小行数 记录到数据监控表中在数据仓库处理和分析展示中添加数据处理的可追溯信息在数据仓库处理和分析展示中添加数据处理的可追溯信息对于核心指标及对应元数据显示和监控,确保对于数据的理解和 定义全局一致接口定义加入接口规范变更版本及内容到数据字段中接口定义加入接口规范变更版本及内容到数据字段中对于网站抓取或接口调用的变化版本记录有利于对数据准确和完 整性的可追溯行为数据处行为数据处理理的注的注意意点点行为数据的标识健(行为数据的标识健(UID,DID)要与其它数据源统一)要与

    24、其它数据源统一关联关联健和对应时间周期,确保数据的一致性和关联性。健和对应时间周期,确保数据的一致性和关联性。行为数据的元数据信息尽可能从源头以字段化方式植入数据行为数据的元数据信息尽可能从源头以字段化方式植入数据 处理的数据文件中处理的数据文件中埋点数据一定要符合业务数据信息流才能保证数据处理的完埋点数据一定要符合业务数据信息流才能保证数据处理的完 整性和确保数据的业务可用性整性和确保数据的业务可用性职位信息Hive数据仓库简历信息帖子信息飞谷调度系统帖子地址DBHBase去重/计 算/映射定时生成维度统计 任务,执行hql 统 计任务职位详细页职位检索页统计图表页Spark引擎R脚本数据处

    25、理元数据信息飞谷监控系统公共数据公共数据及及行行为数据的数据处理为数据的数据处理技技术案术案例例图图大数据处理架构介绍大数据处理架构介绍1.1.传统数据仓库的数据处传统数据仓库的数据处理理技术及技术及思思考考2.2.大数据环境下对于公共大数据环境下对于公共数数据及行据及行为为数据数据的的数据数据 处理技术处理技术3.3.由传统数据由传统数据仓仓库到大数据数据仓库的数库到大数据数据仓库的数据据处处 理实践思考理实践思考及及建议建议传统数仓到传统数仓到大大数据数仓的数据处理数据数仓的数据处理大数据平台的迁移与构建大数据平台的迁移与构建传统数据仓库传统数据仓库1以RDBMS为主要的 数据处理存储层。

    26、2 数据处理采用通用的ETL产品工具3报表层是报表产品通 过标准的数据库连接驱 劢连接到数据仓库DB 中。4 数据库安全级别可以 通过RDBMS安全管理数据同步与脱敏数据同步与脱敏1数据处理的重点是 全样本数据的基于业 务时间周期同步落地2 基于RDBMS 的敏 感数据在进入大数据 平台后进行脱敏处理,确保数据安全大数据平台大数据平台1以HDFS为主要的数 据处理存储层2数据处理根据数据来 源采用不同工具,其中 同 步 R D B M S 数 据 的 SQOOP,实时数据采 集 的 F l u m e ,kafka,storm,及 公 共 数据的接口API3报表层产品采用自主 开发或支持大数据

    27、平台 的工具tablelu等4数据安全管理难度大,需要全局设计控制由由传传统统数数据据仓库到大仓库到大数数据据数据数据仓仓库库的数的数据据处处理思理思考考及及建建议议构建数据平台时 的数据基因一定 要准确完整,这 是整个数据平台 的根基数据平台的数据处理 开始就需要同业务数 据流一同设计数据的 元数据血缘流,确保 业务数据断点可查可 控可视化设计时除了正 常的业务数据报表外,对于主线重要的业务 元数据及技术元数据 的信息同样要做可视 化设计,并加入自劢 化监控内容中。对数据平台的分层数 据做到基于存储机制 的原子化安全控制,确保从底层实现数据 的安全分层控制。主 数据及业务权限数据 等数据基因数据基因 定义完整定义完整 准确准确数据血缘数据血缘 设计清晰设计清晰 可溯可溯数据安全数据安全 机制原子机制原子 化化核心指标核心指标 及元数据及元数据 做到可视做到可视 化和监控化和监控 自劢化自劢化

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据处理架构介绍课件.pptx
    链接地址:https://www.163wenku.com/p-5971048.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库