数据仓库(Teradata)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库(Teradata)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 Teradata 课件
- 资源描述:
-
1、Teradata数据仓库Dr. Zhang JianSenior Technical ConsultantTD China, Apr., 2009公司介绍NCR公司介绍 创建于1884年,120年历史 包括三大部门数据仓库事业部 / Teradata金融服务 / ATM零售服务 / POS 年收入$60+亿 全球员工33,000人 美国财富500强厂商,纽约证券交易所上市公司Teradata 公司介绍 Teradata 公司 2007年10月1日正式从NCR分拆 全球企业级数据仓库的领导企业 企业级数据仓库领导企业 数据分析解决方案 咨询服务 1999年来一直被Gartner定位在数据仓库领导
2、者象限 数据仓库行业的领导企业 全球40多个国家设有分支机构 客户覆盖全球各个行业的领导企业 2006年营业收入16亿 高性能处理技术 并行环境 速度和可扩展能力Teradata A Brief History1979Teradata Corp founded in Los Angeles, California Development begins on a massively parallel computer1982 YNET technology is patented1984 Teradata markets the first database computer DBC/1012
3、First system purchased by Wells Fargo Bank of California1987 First public offering of stock1989 Teradata and NCR partner on next generation of DBC.1991 NCR Corporation is acquired by AT&T; Teradata revenues at $280 million.1992 Teradata is merged into NCR.1996 AT&T spins off NCR Corp. with Teradata;
4、 Teradata Version 2 is released.1997 The Teradata Database becomes the industry leader in data warehousing.2000 The first 100+ Terabyte system is put into production.2002 Teradata V2R5 released 12/2002; major release including features such as PPI, roles and profiles, multi-value compression, and mo
5、re.2006Teradata V2R6.2 is released; BYNET V3 is available with NCR 5450/5500 systems.2007 NCR and Teradata become two separate corporations. Teradata 12.0 is released in 4th quarter.2008Teradatas first full year as new corporation; 2500/5550 systems are introduced.FORTUNE Global Rankings, July 2007全
6、球前全球前10大大零售商中的零售商中的50%全球前全球前10大大电信公司中的电信公司中的90%全球前全球前10大大运输行业公司中的运输行业公司中的60%全球前全球前10大大航空公司中的航空公司中的70%全球前全球前10大大商业银行中的商业银行中的50%Teradata在全球各个行业的成功案例 领先行业 银行及财务公司 政府 保险行业 制造业 零售业 电信行业 运输行业 旅行业 世界级的客户名单 接近900个客户 超过2000个系统安装业界的领导企业 (Gartner Magic Quadrant for Data Warehouse Database Management Systems)ab
7、ility to executecompleteness of visionniche playersvisionariesDATAllegroGreenplumNetezzaMySQLKognitioSand TechnologySybaseMicrosoftIBMTeradataOracleleaderschallengersAs of September 2007经典数据仓库体系架构什么是数据仓库 “A Data Warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of dat
8、a in support of managements decision making process” -W.H.Inmon, 1992, Building The Data Warehouse 四点特征 面向主题 集成的(一致性) 时变性 不易失性(稳定性)What is a Data Warehouse?A Data Warehouse is a central, enterprise-wide database that contains information extracted from Operational Data Stores (ODS).Based on enterpri
9、se-wide modelCan begin small but may grow large rapidlyPopulated by extraction/loading data from operational systems Responds to end-user “what if” queriesCan store detailed as well as summary dataOperationalDataData WarehouseExamples of Access ToolsEnd UsersATMPeopleSoft Point of Service (POS)Terad
10、ata DatabaseTeradata Warehouse MinerCognos MicroStrategy 谁是我们最有价值的客户 按在网时间、消费金额、收入、年龄、地域、业务规模. 按产品使用情况 (国内、国际、接线员服务、呼叫卡、全部) 在我们最好的客户中,谁最有可能流失? 我们的基站有问题吗? 我们可以将流失模式与用户的家庭关系或一个呼叫频繁的基站对应起来吗? 按欺诈类型划分的欺诈模式? 我们的网络使用峰值占总使用的百分比? 我们应该向谁推销新产品或服务? 那些客户我们应该让给我们的竞争对手? 针对一个选定的用户群体,最赢利的产品/服务组合是什么? 吸引某一类用户的最恰当的消息、媒
11、体、和渠道是什么?使你能够轻松回答下列业务问题使你能够轻松回答下列业务问题Teradata电信业cLDM的商业价值技术需求技术需求 大数据量 高数据吞吐能力 高可扩展性 查询复杂度高 迅速的查询响应 高并发度 7x24的支撑 直接访问 数据质量业务驱动业务驱动 数据仓库应用往往需要访问历史数据 数据仓库应用的并发度往往更多 数据仓库应用往往不会面向某些固定应用,而是要满足用户随机查询的要求 数据仓库应用的响应时间可以比较长,往往不会像传统的交易应用一样要求在秒级完成DW的现状的现状数据仓库日益成为数据仓库日益成为企业的核心业务系企业的核心业务系统,支撑企业的关统,支撑企业的关键应用键应用数据仓
12、库的发展趋势及技术要求Teradata典型数据仓库系统框架企业企业 数据仓库数据仓库 从属数据集市从属数据集市 业务人员业务人员 IT 用户用户数据导入数据导入 析取清洗 条件 剔除家庭关系 加载 知识发现知识发现 数据挖掘数据挖掘 信息存取信息存取 工具工具源数据源数据 数据采集数据存储/管理信息访问IT UsersBusiness Users业务系统 业务系统 业务数据 外部数据 关系数据库管理系统聚集 统计 人工智能 神经网络 多维 可视化 EIS/DSS 电子表 对象语言 开发 网络管理网络管理数据库管理数据库管理 系统管理系统管理元数据元数据 逻辑数据模型逻辑数据模型 物理数据库设计
13、物理数据库设计 数据字典数据字典业务和技术咨询与培训服务业务和技术咨询与培训服务数据仓库系统的体系结构数据仓库系统的体系结构抽取传输清洗转换加载规划设计营销管理分析收益情况分析业务情况分析市场竞争分析合作服务方分析客户情况分析服务质量分析客户流失预测竞争对手分析潜在大客户本地网系统本地网系统省级系统省级系统数据源ETL数据存储信息展现数据准备信息访问系统用户财务事件产品营销客户位置网络企企业业门门户户Web Portal企业领导部门经理分析人员客户经理社区经理业务主管元数据、系统管理、系统监控元数据、系统管理、系统监控ThePost外部数据地市公司地市公司省公司省公司AT&T 加载系统数据清洗
14、转换加载文本文件营业97结算计费帐务其他数据源面向业务流程3NF物理数据集市最终用户LDM逻辑数据模型逻辑数据模型详细交易数据面向主题3NFPDM面向分析主题汇总数据模型Star Schema 建模虚拟数据集市数据仓库平台数据仓库平台AT&T 通信服务器数据转换压缩/传输文本文件标准数据接口标准数据接口数据仓库系统中的数据流数据仓库系统中的数据流Teradata电信业cLDM关联 /被关联关联 /被关联服务通过网络实现 /网络支持服务网络产生事件 /事件包括网络类服务被销售给客户 /参与人使用和管理服务财务产生事件 /事件包含财务类参与人产生和经历事件 /事件包括参与人的产品产生事件 /事件包
15、括产品类广告产生事件事件实现广告广告被锁定位置 /位置定位广告针对特定产品 /产品通过广告实现营销为参与人建立帐户、帐单 /记录帐户、成本和付款服务使用的财务信息 /财务记录产品的成本和付款定位网络/网络支持的位置广告的目标针对参与人 /参与人是广告的受众包括消费者和运营商在内/ 位置定位EVENT(事件(事件)FINANCE(财务)(财务)NETWORK(网络)(网络)OFFER(服务)(服务)ADVERTISEMENT(广告)(广告)LOCATION(位置)(位置)PARTY(参与人(参与人)cLDM 核心主题n PartyParty参与人参与人在业务关系层面,跟踪所有人、商业单位、团体及
16、其关联者,详细的关于评分、分段、奖励、渠道、Web Site、隐私信息、特征信息等n OfferOffer服务服务在消费层面,跟踪所有产品、服务,将分解神秘的产品结构分解到最低层面,如合同、产品结构、产品关联物、促销、购买交易、用户定购等n NetworkNetwork网络网络跟踪如何、什么时间,客户使用了一项产品或服务,并提供关于提供这些服务的物理设备的信息n LocationLocation地址地址跟踪客户与通信资产的物理、地理关系,包括两个层面:地址、特征n FinanceFinance财务财务跟踪关于发票账户、付费账户、计费、收入、付费、成本等方面的财务信息AdvertisementA
17、dvertisement广告广告允许用户跟踪营销活动成果,支持制定营销获得战略,客户联系列表、市场调查等EventEvent事件事件跟踪与客户交互的重要活动,包括影响客户与运营商关系的内部、外部事件中央数据库OLAP服务器WEB服务器AT&T A T & T 数据挖掘服务器前端展现工具胖客户端浏览器用户瘦客户端数据挖掘客户端应用服务器ETL服务器管理工作站核心业务系统OS 390/DB2其他业务系统NT/OracleWin2K/UNIXTeraBuilderETL Auto ServicesFload Mload FexportTPumpAccess ModuleTD ManagerDBQMM
18、DSETL Auto AdminETL Auto MonitorMPP ServerTeradata V2R5Win2KSAS Enterprise MinerSAS EMClientMS AS/CognosW2KQueryManBrio DesignerW2KIISBrio PortalOneW2K/UNIXBrio ODSBrio BDSW2KBrowser典型的数据仓库体系架构Teradata数据仓库技术框架20对数据仓库平台的基本要求假设一个客户平均每天假设一个客户平均每天8 8个电话个电话( (双向双向) )每个每个CDR 230CDR 230个字节,如果保存个字节,如果保存6 6个
19、月个月CDRCDR进行分析,则每进行分析,则每100100万客户的原始数据为:万客户的原始数据为:1,000,0001,000,000X8X230X6X30=331(GB)X8X230X6X30=331(GB)数据仓库磁盘容量(数据仓库磁盘容量(RAID 1RAID 1)为约)为约1.21.2TB!TB!客户数原始数据数据仓库磁盘容量(RAID 1)数据仓库磁盘容量(RAID 5)200万1400GB5040GB3400GB600万4250GB15300GB10200GB1200万8500GB30600GB20400GB中国移动的实例中国移动的实例: :21强大的并行处理能力 数据仓库是分析性
20、的应用 动态随机查询,无法预定索引 复杂查询(多表连接,合计,大表搜索) 并发用户对数据仓库平台的基本要求Teradata MPP 体系架构 Teradata BYNET 互联 完全线性扩展的带宽 节点 可线性扩展到1024个节点 Windows/Unix/Linux 存储 独立I/O 按节点进行扩展 连接 完全线性扩展 通道连接 ESCON/FICON LAN, WAN 服务器管理 一个控制台来管理和监控整个系统SMP 节点节点1SMP 节点节点2SMP 节点节点3SMP 节点节点4CPU1CPU2CPU1CPU2CPU1CPU2CPU1CPU2双路双路Teradata BYNET互联互联内
21、存内存内存内存内存内存内存内存服务器管理CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)缓存缓存缓存缓存缓存缓存缓存缓存缓存缓存缓存缓存缓存缓存缓存缓存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储磁盘存储BYNETTeradata采用采用Shared-Nothing的的MPP架构架构 为线性扩展而设计的体系架构 为大数量、高速的磁盘访问进行优化 出色的大数量操作的访问能力体系架构决定可扩展性各个节点之间的互联
22、采用各个节点之间的互联采用数据库消息,而不是共享数据库消息,而不是共享I/O或者内存或者内存所有的内存访问都是本地所有的内存访问都是本地CPU到磁盘使用独立的到磁盘使用独立的I/O路径路径AMP4的数据AMP3的数据AMP2的数据Teradata并行的基础每每个个并并行行单单元元只只管管理理自自己己的的数数据据Building IndexesBackup & RecoveryRow LockingTransactionJournalizingSortingReading WritingLoadingAggregatingAMPAMPAMPAMP1的数据AMP1BYNET10,000,000条记
23、录250,000条记录x 40 x 40250,000条记录250,000条记录250,000条记录体系架构决定可扩展性大大SMP/NUMA 为了OLTP系统设计 为交易型事务而优化 随着CPU个数的增加和数据访问的增加,资源冲突将会非常严重。内存内存缓存缓存缓存缓存CPU(s)内存内存缓存缓存CPU(s)CPU(s)内存内存SPEEDLIMIT55 磁盘存储磁盘存储CPU(s)缓存缓存内存内存磁盘存储磁盘存储CPU(s)缓存缓存内存内存磁盘存储磁盘存储CPU(s)缓存缓存内存内存磁盘存储磁盘存储CPU(s)缓存缓存内存内存磁盘存储磁盘存储CPU(s)缓存缓存内存内存磁盘存储磁盘存储CPU(s
展开阅读全文