书签 分享 收藏 举报 版权申诉 / 45
上传文档赚钱

类型XXX运营商大数据平台规划解决方案.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4105824
  • 上传时间:2022-11-11
  • 格式:PPTX
  • 页数:45
  • 大小:7.55MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《XXX运营商大数据平台规划解决方案.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    XXX 运营商 数据 平台 规划 解决方案
    资源描述:

    1、二、大数据平台整体规划一、大数据应用发展趋势所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息。从大量数据中挖掘高价值知识是各界对于大数据的一个共识。海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。Google 首席经济学家 Hal Varian大数据主要被用于分析和决策,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些

    2、新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,对企业产生新的价值。31542自助分析、生产管道可视化、资源解耦随需而动,营销实时,以业务效率提升为标志。提升业务效率数据集中到数据中心,多数据源管理,透明服务支持,实时的决策和预测能力提升整体经营管理水平。增强管理水平数据开放服务、与OTT厂商合作的后向收费、广告等新业务.创新商业模式互联网化的电子渠道全景体验、个性化商品推荐、LBS位置营销、面向客户个体的深度洞察提升客户体验以技术驱动为标志,内存计算、MPP、CEP分而治之的分布式计算让运营商实时高效决策.技术高效、低成本精细化营销数据中心营账系统经分(BI)GN口上网话单终端(

    3、DM)VAC短彩信中心语音通话详单客服接触记录流媒体平台详单位置信令话单基站信息116114企业黄页信息渠道应用助销信息 经过一二期的建设,精细化运营平台的数据中心,已经成为XX运营商最大、内容最丰富的数据仓库;随着数据量的增长,需要对基础架构做长远规划;有必要深入挖掘数据价值,研究新的商业模式,将成本中心转化为利润中心5 增量式的、几乎无限的扩展扩展性 要求系统总是在线运行可用性 灵活可动态改变的数据模型灵活性扩展性纵向扩展横向扩展分布式资源集中计算和存储分布可用性单份数据数据复制 不要使用分布式事务处理一致性低成本运营一体化运营精细化运营全网运营实时、智能化运营集中化建设、管理和维护可不断

    4、线性扩展提高资源综合利用率标准化功能组件,可共享可复用按业务量、按需支付BASS与BOSS、CRM的一体化BSS与MSS、OSS、VAS等跨域一体化对外部客户和应用的一体化片区化、网格化管理长尾市场、小众市场的支撑个性化、短周期需求的满足异地客户、家庭客户、集团客户一点接入、全网服务、全网客户画像全国统一套餐、全网营销、统一客服实时数据获取、处理、分析智能化主动事件触发智能管道移动互联网业务运营发展趋势对业务支撑平台的集中化要求对数据架构的集中化要求n集中化、大容量、高扩展、高可用数据库平台:支持全网型数据、跨域数据的整合,形成集中化管理的的企业级数据中心n高性能:支持3G时代更高的实时性要求

    5、、支持n动态资源共享:支持多租户管理、资源动态按需供应n可重用、标准化组件:形成可重用组件,支持一次开发、各省共享的模式,形成规模型效益 数据集中化趋势使得运营商面临着海量数据的存储及分析问题,大数据在支撑移动业务发展趋势中,充当重要角色。7移动互联网和个人消费领域移动互联网和个人消费领域业务扩展业务扩展和和CEM导致海量导致海量数据的及时分析带来挑战数据的及时分析带来挑战运营运营商一体化集中运营和透明管控,催生巨大的经营分商一体化集中运营和透明管控,催生巨大的经营分析数据析数据仓库仓库,对大数据的存储、性能、开放带来挑战,对大数据的存储、性能、开放带来挑战DPI和信令监测,产生的大量事件在存

    6、储和用户通信行和信令监测,产生的大量事件在存储和用户通信行为分析的实时处理性能带来挑战为分析的实时处理性能带来挑战ICT融合,核心网络、运营支撑和融合,核心网络、运营支撑和VAS业务数据的融合业务数据的融合催生海量催生海量User Profile并集,对大数据的关联分析计算并集,对大数据的关联分析计算效能带来挑战效能带来挑战移动互联网流量井喷与客户行为分析移动互联网流量井喷与客户行为分析业务融合、能力互通带来数据融合业务融合、能力互通带来数据融合提升客户体验要求分析网络服务数据提升客户体验要求分析网络服务数据ITIT系统集中化和行业数据价值挖掘系统集中化和行业数据价值挖掘BSS BI数据:n河

    7、南17个地市,每天抽取正常用户数7000多万,拨备用户数3000多万,DW层用户表总量1亿多条;语音清单每天2.7亿条数据,GPRS清单每天4.2亿条数据;账务每天4.7亿条数据;GPRS文件每个100M左右,其它文件25M。n日接口数据量:2000G,其中话单 220G,WAP清单 300G,工单服务 200G,用户、帐务 300G,其它980G。每月124TB数据量入库,历史数据保留1年,总数据量1.45PB。n按照用户数简单测算,6.5亿用户下,总数据量 10PB!联通总部联通总部3G3G互联网访问记录查询及分析互联网访问记录查询及分析系统:系统:全国全国每日新增每日新增10TB10TB

    8、数据,数据,每月近万亿条每月近万亿条记录,要记录,要存放存放6 6个月个月,约,约 2PB2PB的上网记录数据。上网记录入库时间小于的上网记录数据。上网记录入库时间小于3030分钟,分钟,原始上网记录保留原始上网记录保留6 6个月。上网个月。上网查询速度不高于查询速度不高于1 1秒,并发查询数秒,并发查询数10001000请求请求/秒秒。集群规模集群规模188188个数据节点,存储容量个数据节点,存储容量2.6 PB2.6 PB传统数据仓库无法有效存储日益增长的业务数据存储需求基础数据(用户资料,产品订购信息):15G/日*365+40G*12月=5T/年考虑20%的业务增长率后为:6T/年用

    9、户上网数据用户上网数据话单数据:250T/年考虑20%的业务增长率后为:300T/年MR数据数据话单数据:634G/日634G/日*365=227T/年考虑20%的业务增长率后为:272T/年BSS数据数据新增新增新增新增2025303540452013年下半年用户流量增长趋势日使用流量(TB)6月月 10月月n随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等n传统数据仓库只保存处理后的汇总数据。在大数据架构下需要对用户原始话单进行长期保存。需要扩容大量存储空间。用户层现平台的数据保存周

    10、期大数据的数据保存周期应用层KR/CB/DM层永久保留至少2年数据存储层MK层永久保留至少2年DW层5个月永久保留数据获取层ODS层37天永久保留面对海量的数据压力,需要大数据平台提供可供线性扩容的存储能力。n每个应用需求的变化就是一场灾难。由于数据处理与业务的紧密关联可能需要对中间每个处理环节进行逐个调整。重新生成数据的周期也非常缓慢。n由于传统数据仓库的数据处理流程与业务保持紧密关联。整个数据加工流程为最终应用服务。为缓解存储压力在数据抽取和清洗阶段会过滤掉与业务无关的数据记录和字段。数据源明细数据层(DW)汇总层(MK)报表数据标签库指标数据客户统一视图应用层DW&MK操作型数据ODS层

    11、Oracle数据库精细化营销架构短信中心经分DMVACGN话单流媒体客服系统计费中心MC话单彩信中心MR数据BSS用户互联网联系方式(总部研究院)241234n现网数据平台是传统关系型数据库架构。大量的用户上网、用户行为等半结构化和非结构化数据无法保存和处理,缺乏非结构化数据的处理能力。用户上网行为等互联网行为数据以结构化数据方式保存至数据仓库中。传统数据仓库无法有效应对大数据分析需求1n现网每日用户上网HTTP话单达14亿条。每月汇总的记录条数也近30亿条。随着移动互联网正在迅猛增长,传统数据仓库将很难驾驭,无法满足数据处理时限和事务处理需求。3面对海量的数据压力,需要大数据平台提供快速的处

    12、理能力。传统数据仓库组网将是大数据分析的瓶颈n现网精细化营销平台的数据库既存放着所有采集的原始数据,又承担所有的数据加工任务,还承载所有报表和业务应用的数据存储和计算。缺乏对数据分层分级及生命周期的有效管理。n系统核心架构为Oracle数据库+小型机+磁阵。数据存放在磁阵上,计算时由数据库服务器从磁阵读到本地后进行计算结果。随着数据量增长,磁盘I/O、网络带宽、数据库服务器的处理能力将存在瓶颈,处理时延严重。由于传统架构的可扩展性差,无法满足大数据的计算的扩容需求。为应对海量数据处理需求,大数据将从集中数据库向分布式数据库进行转变。计算和存储资源都由x86服务器提供。因为在移动互联网和物联网上

    13、需要有新领域的突破,不同于传统通信业务分析特点,需要对内容等非结构化、大容量信息进行有效分析,传统的架构处理吃力。关系数据库引入对XML 的支持仍然无法有效处理 ETL传统数据仓库无法有效处理新型的业务数据主要关键技术自然语言理解,文本分词、语义分析,情感分析或者大规模计算技术非结构化数据索引技术,如搜索引擎倒排索引技术多媒体处理,包括图像识别,语音识别,多媒体索引等技术传统数据仓库无法有效支撑数据合作运营n由于保存原始话单数据周期较短,合作运营无法追溯历史原始数据。n现网传统主数据库的设计只适用与向上层提供既定好的数据分析任务结果。对外开放底层数据将大大消耗系统资源,影响主库正常的数据处理流

    14、程。同时数据的处理方式及结果也恐难以满足合作运营的需要。n大数据平台的架构将数据分层管理。在各层提供数据开放接口,以满足不同数据需求。将更有效支撑数据合作运营。同时历时数据能促使合作在第一时间就开展起来。2013年年4G网络将占到全球流量的网络将占到全球流量的20%,2016年将超过年将超过3G网络流量,网络流量,2018年将占年将占据超过据超过2/3的移动网络流量。的移动网络流量。2013-2018年年,4G流量的年复合增长率达到流量的年复合增长率达到82.2%。2018年数据业务收入占运营商的份额的年数据业务收入占运营商的份额的47.3%ABI Research 2013.09数据来源:E

    15、ricsson 2013.112012年年9月月Verizon LTE网络建成不到网络建成不到2年,用户达到年,用户达到11M,占,占Verizon用户总数约用户总数约12%,流量消耗占全网流量的,流量消耗占全网流量的35%以上。以上。2013年年1月,月,4G流量占比流量占比50%,2013年年11月,月,4G流量超过流量超过64%,视频是主,视频是主要业务要业务M2M终端数量大幅度增长4G驱动流量增长2014年,年,M2M设备数量接近智能终端设备数量接近智能终端数据来源:ABI Research 2012nVerizon 2013Q3的ARPU同比增长7.1%,比2010年发布4G时增长2

    16、1%。nSKT 2013年Q3 4G的ARPU增长比综合ARPU增长超32%,竞争对手KT则达到40%。n荷兰所有的电信运营商的数据业务收入占比同比增加14%,全部来自语音业务的下降。2013年全球移动互联网业务收入增加23.4%,达到3千亿美元。其中,2013年Q4美国运营商的数据收入超过语音收入。ABI Research Feb.2014时间分布移动互联网:通信功能 =80:20数据来源:GSMA 2013流量分布用户分布数据来源:Infoma 2013数据来源:Cisco 2013全球移动互联网用户数量激增,已3倍于固定互联网用户数量移动互联网流量激增,2012年底,移动数据流量占比超过

    17、13%移动互联网应用使用时间激增,是使用通信服务时间的4倍移动互联网服务商电信运营商SNS博客博客电商电商视频视频图片图片音乐音乐签到签到问答问答点评点评优惠券优惠券专业专业SNS微博微博消息消息论坛论坛2G、3G、4G、WIFI 新闻新闻地图地图超过7.1亿用户超过100万基站每分钟超过800万通话每天信令数据超过1PB每秒上网流量超过40GB经分系统数据规模接近10PB网络优化决策支持精准营销业务创新A+Abis信令Mc信令Gn+Gb信令Gn-IuPS信令Wifi、Radius信令4G X2等信令语音等业务数据DNS 数据虽然结构化的业务数据虽然价值含量很高,但是管道数据却提供了用户的数据

    18、消费、社交网络、行为轨迹、内容偏好等业务数据中无法提供的重要信息,这对用户刻画、套餐设计、用户体验提升等个人和企业产品设计所需依据均有巨大帮助日志结构化数据+http:/spark-summit.org/wp-content/uploads/2013/10/Tully-SparkSummit4.pdfBy Tim Tully(Distinguished Engineer/Architect,Yahoo)互联网公司目前主要采用Hadoop、Streaming、RDBMS、NoSQL等技术应对大数据4V挑战,例如Yahoo针对日志数据进行两种处理,并与业务系统结合(后期尝试Spark技术)示例:示

    19、例:Yahoo数据处理流程数据处理流程Google在全球多个数据中心大规模混合部署和调度数据处理能力,系统利用率高达80%+,2011年MapReduce系统每天处理1000PB左右输入数据,支撑其核心业务,包括搜索、广告、地图、邮件、社区等业务。针对不同的数据处理需求提供多种数据处理系统。随着技术能力提高,将大数据处理能力服务化。Facebook以Hadoop为基础建设了包括流计算、实时计算、离线分析在内的各种大数据系统系统。2012年每天要处理25亿条消息、用户点击Like按钮的次数达到27亿次、上传3亿张照片。Graph Search可以检索10亿用户、2400亿图片和1万亿次访问。目前

    20、已经支持多区域数据同步。Facebook Puma每天处理超过200亿事件,延迟小于30秒Amazon为被托管应用提供了多租户、按使用付费的大数据服务,整合了非结构化(S3)、结构化(RDS、SimpleDB、DynamoDB)数据,通过并行计算EMR能力,将数据放入RedShift用于最终的数据展现等目的。Twitter利用Hadoop和Pig工具完成数据的批量分析,并进行决策支持和数据挖掘,利用Storm每天实时推送1亿活跃用户的5亿消息二、大数据平台整体规划一、大数据应用发展趋势 面向结构化数据,非结构化处理效率低 基于昂贵硬件(小型机+磁盘阵列)或一体机 硬件平台兼容性差:在跨代硬件或

    21、跨厂商硬件环境下常常无法部署 扩展性达到PB级之上可选厂商较少,易绑定 具备结构化/非结构化混合分析的能力,大数据多为非结构化 基于消费级硬件,以常态化硬件故障为设计出发点,不依赖高性能、高可靠性硬件保障系统性能和可靠性。基于通用硬件,平台兼容性好,可跨代,跨厂商硬件部署 扩展性高,业内有上万节点级部署案例,大陆有千节点级部署transactiontransactionDBMSDBMSETLETLDWDWAnalysisAnalysisClusterClusterUnstructureUnstructureStreamStreamMultiple data sourcesMultiple da

    22、ta sources(MapReduce)传统数据分析处理传统数据分析处理基于云计算的大数据处理基于云计算的大数据处理Distributed architectureDistributed architectureTraditional DB/DW Traditional DB/DW TBTBPBPBEB EB ZB ZBMPP DW+HadoopMPP DW+HadoopAnalysisAnalysis云计算云计算是挖掘大数据价值的核心基础是挖掘大数据价值的核心基础对象存储BC-oNest数据仓库系统BC-HugeTable系统监控和管理CloudMaster平台安全管理CloudSecur

    23、ity移动互联网业务平台IDC服务经分集中化结算系统云计算资源池系统并行数据挖掘工具集BC-PDM并行数据抽取转换BC-ETL搜索引擎BC-SE经分系统ETL/DM信令系统物联网应用弹性计算BC-EC弹性块存储BC-EBS商务智能平台BI-PaaS数据管理/分析类计算/存储资源池BC-Hadoop 数据存储和分析平台IaaS 产品PaaS 产品“大云”产品实时交易类SQL数据库BC-RDBBC-BSP 数据并行框架内存处理引擎BC-DMEK-V数据库BC-kvDB2.0产品体系2.5新增产品2.5功能增强开源社区有很多Hadoop的发布,但是没有一项可以满足大云现有数据分析需求。BC-Hado

    24、op将所需的特性打包形成独特的大数据平台产品IAAS分分析析PAAS交交易易PAAS云云计计算算管管理理支持支持4000节点组成单个大数节点组成单个大数据集群据集群提供聚合的提供聚合的IO访问能力,线访问能力,线性扩展性扩展提供多用户计算和存储能力提供多用户计算和存储能力相对隔离的手段相对隔离的手段提供提供Hadoop主控节点,即主控节点,即NameNode和和Job Tracker的高可用的高可用能力能力:消除开源:消除开源Hadoop升级造升级造成的接口不兼容,提供向下兼容的接成的接口不兼容,提供向下兼容的接口口MapReduce 并行计算框架并行计算框架HDFS 分布式文件系统分布式文件

    25、系统HBase 分布式分布式NoSQL数据库数据库监控和管理工具监控和管理工具BC-Hadoop应用,包括应用,包括HugeTable、PDM、BC-SE等等准实时采集批量采集Hadoop平台MPP,基于X86平台主数据仓库分布式数据库基于X86平台数据采集(云化ETL,流数据处理、爬虫)数据层获取层能力层精细化营销智能运营物联网应用应用商店客服应用基础分析能力数据挖掘能力实时分析能力自助分析能力多维分析能力数据共享能力指标应用报表应用主题分析专题分析互联网GN口半结构化、非结构化数据BSS经分DMVACMC话单业务平台结构化数据数据源分布式文件系统 HDFS记录明细数据HBaseM/RHiv

    26、e记录汇总数据数据统一服务和开放SQL、FTP、WS、MDX、API、分布式数据库(MPP):存储加工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。主数据仓库(与MPP合设):存储指标数据、KPI数据和高度汇总数据。Hadoop云平台:负责存储海量的流量话单数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。数据开放接口:向大数据应用方提供大数据平台的能力。数据采集(ETL):负责源数据的采集、清洗、转换和加载包括:1、把原始数据加载到Hadoop平台。2、把加工后的数据加载分布式数据库和

    27、主数据仓库应用层lHDFS:分布式文件系统有较强的容错性可在x86平台上运行,减少总体成本可扩展,能构建大规模的应用lHBase:非结构化NoSQl分布式数据库 基于分布式文件系统HDFS,保证数据安全列式存储,节省存储空间提供大数据量的高速读写操作lHive:分布式关系型数据库数据可保存在HDFS,可提供海量的数据存储类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理通过MapReduce实现大规划并行计算lMapReduce:大规划并行计算引擎可将任务分布并行运行在一个集群服务器中Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源,Ha

    28、doop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。HBaseMapReduceHiveHDFS快速的数据读取大数据存储统计复杂计算并行处理Shared Nothing代表数据库:GreenPlum、Vertica、Teradatal适合大数据量的OLAP应用缺点优点线性扩展:X86平台高可用性较低新型MPP数据库主要构建在x86平台上,为无共享架构(Share Nothing),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等

    29、,支持PB级的数据存储。l新型MPP分布式数据库基于开放平台x86服务器大规模的并发处理能力无单点故障,可线性扩展多副本机制保证数据安全支撑PB级的数据量支持SQL,开放灵活数据分级存储原则数据分级存储原则数据融合与分级存储实施数据融合与分级存储实施按数据血缘按逻辑层次按业务种类按设备网络划分按设备物理地址在线、近线在线、近线、离线、离线按访问按访问频度频度内存数据库按响应按响应及时性及时性内存数据库数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。基于生命周期基于访问压

    30、力基于业务用途基于物理属性分级原则分级原则高性能磁盘库磁带光盘库中低性能磁盘库将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。数据数据数据数据数据数据1、核心模型融入主数据仓库、核心模型融入主数据仓库主数据仓库2、历史数据迁移到分布式数据库、历史数据迁移到分布式数据库分布式数据库1、清、清单数据单数据入入MPP数据库数据库Hadoop平台主数据仓库报表数据标签库指标数据客户统一视图信息子层话单数据非结构化数据信息子层:报表数据、多维数

    31、据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总。明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并ODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。明细数据层(DW)轻度汇总层(MK)高度汇总层(MK)应用库精细化营销分布式数据库MPP其他应用1其他应用2应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平

    32、台的一个上层应用,有由大数据平台提供数据支撑数据访问SQLFTPHSQLAPIETL数数据据采采集集E ET TL L互联网GN口非结构化数据BSS经分DMVACMC话单业务平台结构化数据数据源获取层12123344源数据导入ETL,进行数据的清洗、转换和入库。基础数据加载到主数据仓库,规划保存3年清洗、转换后的ODS加载到分布式数据库规划保存1+1月,在分布式数据库内完成明细数据和轻度汇总数据加工生成,规划保存2年ODS数据和非结构化数据,如爬到的网页数据ftp到Hadoop平台做长久保存非结化数据分析处理在Hadoop平台完成,产生的结果加载到分布式数据库生成KPI和高度汇总数据加载到主数

    33、据仓库。Hadoop平台主数据仓库报表数据标签库客户统一视图信息子层话单数据非结构化数据明细数据层(DW)轻度汇总层(MK)高度汇总层(MK)应用库分布式数据库MPP数据访问SQLFTPHSQLAPIETL数数据据采采集集E ET TL L互联网GN口非结构化数据BSS经分DMVACMC话单业务平台结构化数据数据源获取层123465业务应用通过数据访问接口获取所需求数据。7精细化营销其他应用1其他应用2指标数据IAAS分分析析PAAS交交易易PAAS云云计计算算管管理理产品特性产品特性搜索引擎搜索引擎PageRankPageRank、最、最短路径等算法需大量迭短路径等算法需大量迭代计算,基于代

    34、计算,基于MRMR实现具实现具有较大数据同步开销;有较大数据同步开销;BSPBSP并行计算模型更适于并行计算模型更适于图、矩阵计算;图、矩阵计算;支持大规模集群,可以支持大规模集群,可以达到达到40004000节点节点支持海量数据计算,用支持海量数据计算,用户迭代步骤可以设定户迭代步骤可以设定提供用户开发接口,一提供用户开发接口,一方面可以与方面可以与BC-PDMBC-PDM系统系统整合,一方面也可以单整合,一方面也可以单独使用独使用针对社交网络 分析、用户精准营销、搜索引擎PageRank计算等图计算领域的数据挖掘需求而研发的并行计算框架,针对迭代计算,计算效率优于MapReduce框架ht

    35、tp:/ nothing架构,可以动态水平扩展,设计容量64节点高可用性存储采用节点内置硬盘,提供三副本,保障数据及服务的高可用性分布式事务支持采用两阶段提交分布式事务,保证多节点数据之间的完整性和一致性,同时保证用户操作的事务性海量数据的高性能处理多节点并行计算和多节点并行加载技术使得在海量数据存储下获得高性能。低成本采用X86集群架构,存储采用节点内置大容量硬盘,可搭建在廉价的PC机集群上,成本远远低于UNIX系统集群可以部署于自带硬盘的x86服务器,不需要小型机和磁盘阵列任任务务任务分解任务分解M 1M 2M iR 1R j子任子任务务block1数据分割数据分割block1block1

    36、block2block2block2block3block3block3M 1M 2M iR 1R 2R 2R jHadoopDFSHugeTableMapReduce并行并行数据挖掘数据挖掘各种海量数据处理、挖掘应用各种海量数据处理、挖掘应用数据交换数据交换并行并行数据探索数据探索Web GUI/工作流引擎工作流引擎SQL脚本脚本CLI命令行命令行应用应用用户权限管用户权限管理理 支持数据支持数据清洗、转换、集成等清洗、转换、集成等7大类大类45种种ETL支持分类、聚支持分类、聚类、关联分析等类、关联分析等3大类共大类共15种算法种算法支持数据统计、支持数据统计、变量分析、分布特征探索等变量

    37、分析、分布特征探索等支持网络特征支持网络特征分析、社团发现和演化、社团展示等分析、社团发现和演化、社团展示等支持与支持与RDB直接交直接交换数据、支持换数据、支持Hive、CSV格式数据格式数据Web浏览器使用浏览器使用,并可支持应用共享,并可支持应用共享 支持支持Web图形化图形化方式创建数据分析逻辑,支持方式创建数据分析逻辑,支持SQL脚脚本方式,支持本方式,支持CLI命令行方式命令行方式Java API、Web Service支持SaaS模式的海量数据并行处理、分析与挖掘系统。适用于经营决策、用户行为分析、精准营销、网络优化、移动互联网等领域的智能数据分析与挖掘应用并行并行数据数据ETL

    38、社交社交网络分析网络分析广广域域网网IAAS分分析析PAAS交交易易PAAS云云计计算算管管理理产品定位产品定位利用云计算的强大并行计算和分布存储能力,利用云计算的强大并行计算和分布存储能力,结合结合ETLETL 、DM DM、工作流技术,构建一个、工作流技术,构建一个BI BI PaasPaas平台,提供强大的在线分析和支持决策工平台,提供强大的在线分析和支持决策工具集,以方便用户快速定制、组装、搭建相应具集,以方便用户快速定制、组装、搭建相应的商务智能信息分析系统的商务智能信息分析系统产品特性产品特性BI PaaS系统主要包括二部分:系统主要包括二部分:u开发套件:开发套件:开发套件包括开

    39、发套件包括ETL设计器、报表设计器、报表设计器、集成器等一系列图形开发工具集,将设计器、集成器等一系列图形开发工具集,将各类各类BI能力以元数据描述的方式进行封装,供能力以元数据描述的方式进行封装,供开发者进行离线开发者进行离线BI应用开发。应用开发。uBI PaaS Server:包括应用层、平台层、:包括应用层、平台层、BI能力层、基础设施层、资源层。支撑能力层、基础设施层、资源层。支撑BI应用的应用的部署、运行。部署、运行。IAAS分分析析PAAS交交易易PAAS云云计计算算管管理理消息采集文件采集话单预处理信令预处理Gn话单位置信令DCNBSS炫铃VAC短彩平台物联网客服平台1*10G

    40、E1*GE2*GES9300S9300分布式数据库集群新建ETL、分布式数据库和Hadoop集群内部各自独立组网。分别通过10GE网口接入汇聚交换机。Hadoop集群1*10GEETL集群1*10GE36Pcap数据(DPI)互联网路由器路由器防火墙WAP网站WWW网站分光镜像DPI数据爬取数据爬取数据采集Agentcollector日志采集网元设备(GGSNPDSNWAP网关、NET网关)/Apache日志核心设备话单互联网页面数据正向采集用户行为数据反向采集互联网数据建设方案p 基于Hadoop构建大数据的用户行为分析系统p 系统提供了核心的分布式云存储、分布式并行计算、分布式数据仓库、分

    41、布式列数据库整体解决方案方案延伸p 基于Hadoop的大数据解决方案提供了基础的云存储和云计算的能力,基于该技术框架可进行应用的扩展和衍生。p 基于用户互联网访问行为分析结果,形成详细的户兴趣爱好列表,可进行即时、精准的广告投放37p 系统主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统p 采用Hadoop/HBase作为上网记录存储方案p 采用MapReduce/Hive作用统计分析和数据挖掘工具关键性指标数据存储p 上网记录入库时间:一般小于30分钟,实际约10分钟p 历史5个月+当前月数据查询p 上网记录查询速度:不高于1秒(不含用户访问查询页面的时间)p 并

    42、发查询数目:1000请求/秒以以手机上网详单手机上网详单查询为应用案例查询为应用案例38n项目背景项目背景p运营商建设有多套垂直的网管子系统,目前系统数据集中程度不够,还未形成统一的数据标准和数据共享框架,对运营支撑的支撑力度不够,而网络运维分析在面向服务转型的过程中对数据的汇聚和共享要求极为迫切,因此需要建立统一的网管资源池p网管资源池主要负责各个垂直网管子系统信令数据、日志数据的、告警数据的统一管理,实现跨平台的数据整合、数据应用和数据共享等功能,p网管统一资源池需提供海量历史数据的查询功能,满足运维人员日常信息查询和信息追溯的需要。p系统与呼叫中心、工单系统对接,实现快速的数据交付(工单

    43、生成、告警触发)n难点分析难点分析p多个垂直网管系统的数据结构千差万别,抽取后的数据无法关联形成统一的数据集合,传统关系型数据库优势无法体现p系统需要满足OLAP类应用分析,并面向上层应用提供一致性的数据查询,传统的关系型数据库受限于数据体量和数据种类,无法满足多类型的海量数据的查询和分析要求p系统需同时从多个数据源实现数据库数据、信令数据和日志数据的采集,传统的ETL工具无法满足流式数据的采集要求,导致进程拥塞。n建设方案建设方案p基于不同的数据源及应用分析模式采用Flume、Sqoop等系统工具完成结构化和非结构化数据的导入p基于HDFS实现海量历史数据的存储pHive组件可通过SQL命令

    44、完成大数据的统计分析,并与传统关系型数据库配合完成分析结果数据的存放pHBase主要应用于历史数据的查询,例如:查询1天全网所有隐形故障告警数据流程流程现网时间现网时间(min)云云ETL时时间间(min)加速比例加速比例时间减少时间减少绝对值绝对值(小时)(小时)14650 1153 4.0358.322700 1571 1.7218.882100 12931.6213.491800 11501.5610.8101500 12251.224.611490 325 1.512.80 1000 2000 3000 4000 5000 12891011现网时间(min)HIVE时间(min)现网现

    45、网3.2天天,减少为减少为0.8天天节约近节约近2.5天天现网现网90分钟分钟减少为减少为10分钟分钟仅为仅为1/100 20 40 60 80 100 120 140 流程3流程4流程5流程6流程7现网时间(min)HIVE时间(min)MR时间现网时间现网时间(min)云云ETL时时间间(min)MR时间时间云云ETL脚脚本本加速比加速比例例时间减时间减少少绝对绝对值(值(小小时)时)流程流程390 10 无9.001.3流程流程4130 59 403.251.5流程流程560 14 无4.280.8流程流程680 25无2.500.9流程流程7130 47 无2.761.9滚详单类滚详单

    46、类出月表类出月表类帐详单系统存储数量急剧膨胀,传统架构难以满足当前业务运营要求,系统面临扩容难题帐详单系统存储数量急剧膨胀,传统架构难以满足当前业务运营要求,系统面临扩容难题采集预处理计算1计算2融合处理HugeTable表2HugeTable表1原始数据消息营业厅系统营业厅1营业厅2营业厅3营业厅4某地市应用,每个月帐详单总体数据量某地市应用,每个月帐详单总体数据量10TB10TB话单通过话单通过HTLoadHTLoad工具批量加载工具批量加载帐详单查询通过帐详单查询通过SQLSQL或或NativeNative APIAPI接口进接口进行行复杂分析则通过复杂分析则通过MRMR接口进行接口进行

    47、HugeTableHugeTable支持数据按照支持数据按照Join keyJoin key预先进预先进行数据划分,减少行数据划分,减少joinjoin过程中数据在节点间过程中数据在节点间的拷贝的拷贝应用效果:加载:支持数据并行加载,数据加载保证完整性和可靠性;查询:在高并发条件下,数据查询性能一般可达到网络IO(对于千兆以太网单节点可达1GB)或磁盘IO瓶颈;更新:可支持单条或批量数据增删改查操作,聚合更新带宽可达网络IO极限;压缩:对数据内容进行高效压缩,节省磁盘、网络IO,节省存储空间;“大云大云”应用案例之三:大数据挖掘业务应用案例之三:大数据挖掘业务新业务提升模型:新业务提升模型:通

    48、过客户通过客户细分与手机报业务匹配,实细分与手机报业务匹配,实现精确营销。现精确营销。Kmeans算法,算法,10节点云平台。效果:节点云平台。效果:业务业务1用户渗透率用户渗透率提高提高48%,业务业务1收入收入提高提高64%业务业务1用户数用户数提高提高76%3个地市公司直接使用BC-PDM建模,验证BC-PDM在功能、性能、易用性上能满足现网需求,应用效果显著地市公司地市公司1 1地市公司地市公司2 2外来工其它客户的识别模型:客户的识别模型:C45C45分类算法,分类算法,6 6节点云平节点云平台。台。模型准确性较好,极模型准确性较好,极大提升了营销效率,大提升了营销效率,也极大节约了

    49、成本也极大节约了成本地市公司地市公司3 3欠费风险监控与个人客户信用度应用欠费风险监控与个人客户信用度应用:8节点云平台。首次首次第二次第二次第一批第一批第二次第二次第二批第二批参加试点用户数参加试点用户数500050008000减少工单量减少工单量136443702444欠费情况欠费情况2923.1630609.817071.38欠费人数欠费人数1491148676回收金额回收金额60410136561463621 1、减少了可观的停、减少了可观的停机工单量机工单量2 2、延停后欠费用户、延停后欠费用户比例上升比例上升客户服务客户服务与价值提与价值提升升欠费风险控欠费风险控制制重要前提重要前

    50、提最终目的最终目的“大云大云”应用案例之四:分布式交易数据库应用案例之四:分布式交易数据库TRM:终端进销存系统(在线交易+统计报表)高并发:能支持现网3000个用户同时在线高可用:在线主主热备集群,集群内部多副本(强一致)功能:支持兼容SQL92语法,应用改造时间短,开发速度快(1-4周)可运营可管理:提供命令行监控工具,集成BOMC网管。稳定性:早期出现过较多故障(含严重故障),提供改进产品和运维手段,实现稳定运行,紧急故障在1-10分钟之内抢通。业务:服务于各终端网点、经销商、各级公司以及供应商的销售支撑业务管理平台,实现对移动终端所属的零售商和零售店的终端需求和终端发货的集中管理。规模

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:XXX运营商大数据平台规划解决方案.pptx
    链接地址:https://www.163wenku.com/p-4105824.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库