大数据平台产品建设和应用课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据平台产品建设和应用课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 平台 产品 建设 应用 课件
- 资源描述:
-
1、大数据平台产品建设和应用1. 1. 大数据概述大数据概述2. 2. 大数据平台建设大数据平台建设3. 3. 大数据平台应用大数据平台应用目 录ContentsPart 1大数据概述大数据:成为国家战略十三五规划纲要提出实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用;2016年3月18日2016年8月31日江苏省政府关于运用大数据加强对市场主体服务和监管的若干意见提高政府运用大数据能力;推动简政放权和政府职能转变;提高政府服务水平和监管效率,降低服务和监管成本;2015年9月5日国务院2015年7月1日国务院促进大数据发展行动纲要大
2、力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合;以企业为主体,加大大数据关键技术研发,着力推进数据汇集和发掘,深化大数据在各行业创新应用;大数据成为国家战略江苏省大数据发展行动计划工信部、发改委大数据实例:中国电信海量数据携程、途牛、去哪儿、同程、美团等月上网总量5.02亿条/月手机定位7亿条/天上网搜索、浏览、点击等行为数据100亿条/天海量数据实时获取GPS定位500万/天次海量数据覆盖人口固定电话2000万用户家庭、公共景区WiFi使用者90%以上IPTV用户600万政府大企业200万全省网民6500万手机用户2300万10T 仅江苏省每天数据量仅江苏省每天数据量江苏电信
3、数据现状n 容量大(Volume):江苏电信数据总量已达10P+,日均产生网络日志数据10T+、话单数据1T、n 类型多(Variety):包括位置信令数据、用户网络数据、呼叫记录数据、终端数据、视频数据、n 存取速度快(Volecity):海量数据的快速产生、快速存储、快速使用n 应用价值高(Value):最真实的客户、产品、资源和订单等数据;最详实的用户行为数据电信用户基本数据号码身份信息缴费信息消费信息移动位置数据基站信息移动信息滞留信息信令数据主叫信息被叫信息IP信息位置信息终端数据Mac地址终端ESNAPP信息网络日志数据移动固网源地址目的地IP目的地URL用户触点数据10000网厅
4、大数据特征大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据行业生态图谱 大数据的核心-企业技术大数据基本上就是管道设施的一种。大数据为许多消费者或商业用户体验提供了动力,但它的核心是企业技术:数据库、分析等。 大数据的关键-无缝集成大数据的成功不在于实现技术的某一方面(像 Hadoop、spark等),而是需要把一连串的技术、人和流程糅合到一起。 大数据的构成-多层递进大数据基础设施日益完善,大数据分析BI平台普遍成熟,大数据应
5、用层正在快速构建。大数据思维-数据范畴信息管理 坚实的信息基础 标准化的数据管理实践 可获得并且可用的洞察力分析技能和工具 作为核心专业而发展的技能 通过一套可靠的工具和解决方案而实现 培养面向行动的洞察力面向数据的文化 基于事实的领导力 用作战略资产的分析技术 洞察力知道的战略和运营管理数据理解数据使用数据企业必须掌握三项分析技能才能实现竞争优势大数据思维-三原则小数据大数据抽样数据、局部数据和片面数据用全体代替抽样统计抽样的局限性精准性用数量代替精确拥抱混杂性:容错性更强经验、假设和价值观用相关性代替因果性知道是什么比知道为什么更重要大数据角色业务人员业务用户:提出业务需求,并制定优先级业
6、务分析师:有较深的行业业务知识,通过分析业务数据提供决策支持数据科学家:具有专业领域知识、统计分析背景和计算机技术基础,从数据中挖掘有效信息以解决业务深度分析需求机器学习专家:具有统计学思维、丰富的编程和数据建模经验,通过开发算法进行业务分析和预测技术人员平台/系统架构师:软件工程师背景,对大数据、云计算有较深的理解,负责技术选型和实现流程数据工程师:负责数据的采集、存储、处理IT/运维人员:负责平台的开发、部署、运营、发布、管理和监控大数据时代,解析海量难以理解的信息足以导致改变世界的革新。但真正理解这些数据,需要各个方面专业人士。大数据思维-角色划分p 数据仓库数据源不断扩大(新增互联网非
7、结构化数据等),数据量由TB级向PB级增长p 几乎所有互联网企业都在业务或分析系统中采用了大数据(特别是Hadoop数据分析技术),一方面应对不确定的业务增长和处理各种结构化与非结构化数据,另一方面降低采购和运维成本。采用Hadoop大数据平台的互联网企业如国际上的Facebook、亚马逊(Amazon)、ebay等,国内的淘宝、阿里巴巴、京东、苏宁云商、百度、腾讯、优酷等p 电信运营商包括国际上的AT&T、Vodafone等,国内的中国电信、中国联通、中国移动也已经引入了hadoop大数据平台谁在使用大数据?调研报告-大数据使用和分析的目标53%关注客户40%关注运营7%关注财务全球企业使用
8、数据和分析的目标获得客户和提升体验运营销量财务和风险管理使用数据和分析使用数据和分析改进客户体验59%关注客户34%关注运营7%关注财务中国区使用数据和分析的目标获得客户和提升体验运营销量使用数据和分析使用数据和分析改进客户体验调研报告-大数据来源企业主要使用内部数据源开展大数据举措 交易 日志数据 事件 电子邮件88%57%73%59% 社交媒体 传感器 外部来源 RFID扫描或 POS数据 自由格式文本 地理空间 音频 静态图像/ 视频41%41%42%42%43%40%38%34%调研报告-大数据基础设施(平台) 信息整合 可扩展的存储基础架构 高容量数据仓库 安全与治理65%64%59
9、%58% 脚本与开发工具 列存储数据库 复杂事件处理 工作负载优化 分析加速器 Hadoop/MapReduce NoSQL引擎 流计算54%51%45%45%44%42%42%38%受访者大数据基础设施的组件信息整合是任何分析项目的关键组成要素,对大数据来说,它甚至更加重要。企业的数据必须随时可被需要数据的人员使用和获得。调研报告-大数据分析能力(应用) 查询与报表 数据挖掘 数据可视化 预测建模 优化65%67%71%77%91% 模拟仿真 自然语言文本 地理空间分析 流分析视频分析语音分析35%43%52%56%25%26%受访者采用多种高级分析技能Part 2大数据平台建设人在干、数在
10、转、云在算把握数据灵魂找准应用抓手夯实能力基础风险防控 舆情分析 行为预测 电信自有数据+业务应用数据政务+教育+医卫+交通+旅游+基础设施能力云网融合关键业务能力安全服务运营保障能力运营支撑云计算云计算强调的是底层基础设施的资源复用,让资源的能力尽量发挥出来。大数据大数据是主要面向业务,业务需要什么样的构架,大数据就要有相应的平台、技术和构架。智慧的医疗智慧的市民服务智慧的公共安全智慧的交通实时路况发送公交到站提醒通畅路线规划远程会诊智慧处方临床决策系统犯罪信息挖掘突发事件响应高危位区域统计、预警智慧的公共事业智能用电分析环境状况分析预测水处理/水资源管理智能就业匹配政策舆情分析商品优惠客户
11、匹配全面感知充分整合智能处理协同运作精确管控创新应用政务大数据需求外部数据源内部数据源互联网移动互联网物联网社交媒体等政府部门资料信息及相关系统:经济运行、产业、投资、消费、能耗、交通、电力、装备、中小企业等舆情评论社交关系实时位置旅游度假城市车位使用企业大数据需求助力运营大数据挑战-客户分析全流程567891234项目是为了实现哪个业务目标?如何表达成功(通过哪些数据)?您需要分析哪数据,哪些数据具有相关性您有哪些数据,缺乏哪些数据,哪些数据具有相关性您需要哪些沟通能力来实施您的研究结果,并实现公司战略?您需要采取哪些行动?这些活动与哪些客户和产品相关?您选择哪些沟通渠道?您在哪些方面成功(
12、包括响应能力和业务绩效的衡量和反馈)?客户分析举措的治理检查表数据源多种多样数据存储代价高昂数据资产缺乏有效管理数据价值缺乏有效利用用管存收大数据挑战59%59%数据自然流失 70%70%数据过于复杂85%85%企业数据架构无法适应数据量和复杂性增长的需求 98%98%企业无法及时、准确地为业务提供正确的信息性能灵活共享价值安全关注要素大数据关注要素p 关键功能点 多级团队管理 资源开通和隔离 数据安全和隔离 程序管理和调度 数据查询分析 数据开放共享 数据隐私保护数据应用层数据应用层数据共享数据共享层层数据存储数据存储与分析层与分析层数据采集层数据采集层任任务务调调度度与与元元数数据据管管理
13、理安全、权限与监控安全、权限与监控搜索搜索报表OLAP其它数其它数据接口据接口DBRedisHBaseOtherFile/ftp/http实时计算实时计算(Storm/Spark Streaming)MRHiveSparkSparksqlHDFSFlumekafka网站日网站日志志ftp/httpMysqlOracleOtherDrillAD-HOCsqoopKylin批处理批处理抽取程序依据数据特性和应用特点,建立批处理和实时计算的大数据平台系统架构1收2存4用3管大数据系统架构-Hadoop方案电信大数据定位基础设施提供商 数据产品与能力提供商 分析技术提供商 业务应用提供商 大数据使用者
14、 基础设施提供商数据和分析提供商业务应用提供商数据标签 位置信息 趋势预测 精准营销 咨询报告我们能做什么观云大数据产品观云大数据应用大数据管理数据地图数据开发生产部署调度管理数据管理系统管理数据交换大数据存储数据批处理数据实时处理大数据收集结构化数据实时数据非结构化数据大数据分析BI分析可视化大数据挖掘机器学习决策支持观云提供大数据一站式解决方案,帮助客户收集、存储、管理、使用(分析和挖掘)相关数据,提升客户业务支撑水平。观云基于成熟的大数据开源技术(hadoop/spark),结合鸿信大数据团队的技术特长和项目实施经验,形成了具有自主知识产权的大数据软件产品。观云概述大数据源日志数据大数据
15、集群大数据文件结构化数据多媒体数据 实时收集 实时毫秒级不间断采集数据,并存入大数据集群 批量收集 按小时、日、周、月等时间周期,批量采集各类数据,存入大数据集群大数据收集非结构化数据实时数据数据流观云-收集小型机光纤交换机存储阵列网络交换机X86服务器数据库软件(ORACLE/DB2等)大数据软件(Hadoop/Spark)成本显著降低同等存储和计算能力,软硬件综合成本最低仅需10%架构健壮扩展灵活Volume海量支持GBTBPB各种量级数据存储和运算,实现海量数据并发管理。 Variety多样轻松处理结构化和非结构化数据,包括Web语音图像视频等数据。 Velocity实时实时&流式处理,
16、支持海量数据的毫秒级运算。Scale规模适用小中大各种规模,可根据数据发展情况灵活、快速扩展集群:几台-千台。实时处理高效迅捷不同数据同地存储海量数据轻松存储观云-存储数据资产管理1分门别类观云-管理分散各处,杂乱无序各取所需一点汇总,整齐统一数据血缘管理2寻根溯源关系不清,野蛮生长枝繁叶茂,欣欣向荣正本清源团队和资源管理3观云-管理开发工具管理4五花八门,参差不齐僧多粥少,山头众多团队1团队2管理灵活,合理调配核心自主降低门槛统一规范,提升效率削峰填谷合作无间数据安全管理5观云-管理IPIP和工和工具限制具限制函数函数授权授权用户用户审计审计数据表数据表授权授权4大安全保障字段字段加密加密数
17、据数据分级分级2重隐私保护处理效率显著提升2应用名称应用名称数据量数据量本地集市耗时本地集市耗时( (分分钟钟) )大数据平台耗时大数据平台耗时( (分钟分钟) )效率提效率提升升天翼、快销品到达及净增统计上亿级501374%天翼、快销品、4G新装统计上亿级541572%宽带日统计千万级10460%4G产品清单统计千万级241058%天翼快销品清单统计上亿级341168%根据现有产品实例表作的宽表上亿级1214563%天翼单产品合约统计千万级321263%后付费宽带超期缴费统计百万级472057%指定账目收入统计千万级532357%应收账款月统计上亿级792075%出库终端匹配月统计千万级61
18、2166%对比大数据平台和传统数据库处理效率,发现效率提升60%左右,而且数据数量级越大,效率提升越高。多团队支撑能力1架构灵活,可以支撑不同的团队基于企业数据进行分析挖掘,实现了资源的充分利用和数据的高效共享。ABCD观云-使用3丰富的可视化展现提供海量数据的批量和实时分析、图形化操作、丰富的可视化展现,帮助客户轻松自如地完成数据分析、业务数据探查,提升数据化运营水平。实时监控大屏展现图表结合界面展现用户自定义界面展现实景地图展现观云-使用提供大数据存储、计算、安全、工具和服务等基础设施及一站式解决方案,可根据客户需求进行个性化定制。使用廉价的X86服务器(新增或利旧)组建大数据平台,极大地
19、降低建设成本,最低仅需传统投资成本的10%。架构先进,适用小中大各种规模,可根据业务数据增长情况灵活、快速扩展。提供客户数据+电信标签的能力,助推客户业务拓展水平跃升。电信级的实施团队,电信级的管理规范,经过电信内部多年使用的考验。通过灵活高效的管理,开放的大数据解决方案,助力客户业务服务水平的提升。观云差异化优势科研情况:支持所有主流大数据批处理(hadoop)、实时处理(spark)技术,秒级同步百万条记录;秒级处理TB级别数据,小时内部署百节点规模的大数据集群;100+数据业务挖掘模型,50+并行化数据挖掘算法;完整的大数据解决方案供应商,产品线全面覆盖基础平台、数据应用和可视化各个层次
20、。成果展示:鸿信公司累计获得软件著作权48项,专利11项;省市以上奖项12项;获得资质包括计算机信息系统集成一级、CMMI5、ISO9001:2008等。团队组成团队规模80人,数据仓库及大数据行业从业经验7年以上;与国内领先企业、高校建立广泛的合作关系和联合研发团队。项目经验成功实施500万+级项目7个,200万+级项目5个,100万+级项目6个,30万+级项目9个;涉及运营商、社保、交通、教育、财政等多个领域。精英团队成熟经验前端科研丰硕成果观云大数据团队p 江苏电信大数据汇聚与共享平台建设大数据基础平台,支撑电信大数据存储和计算:PC SERVER总计200+台,硬件金额合计:500W+
21、;获得可用存储:3PB+,可用内存10T+,以及良好的扩展性;实现了话单数据处理从传统数据仓库向大数据平台的迁移;实现了上层应用分析从传统数据仓库向大数据平台的迁移;基于Hadoop平台实现了DPI、信令等数据的准实时处理;基于观云处理,实现多团队灵活入驻:入驻大数据分析团队30+,进行大数据应用分析40+,活跃开发用户280+等;企业数据应用门户经营风险管控数据应用DPI、信令等外部数据非结构化数据ETL平台(分布式ETL)Hadoop分布式集群数据批处理海量结构化数据:话单信令非结构化数据:DPI流处理流式数据:信令AAA认证大数据基础平台ODS传统结构数据准实时处理EDW传统结构数据批量
22、处理数据集市数据储存与处理大数据汇聚共享平台开放共享开发利用安全管理数据交换MSSBSSOSS业务平台结构化数据CSSCMS数据应用数据服务封装客户行为分析数据服务经营分析集市营销维系集市本地应用集市客户行为集市30+分析团队40+专题应用280+开发用户1000+数据表800+流程部署专业资深的应用团队覆盖广泛的服务客户不同领域的数据挖掘规模庞大的共享数据变革创新的行业领域观云大数据平台案例2.4 成效一:团队能力拓展成效一:团队能力拓展成效一:构建电信大数据开放生态圈双百兆营销移动客户画像数据稽核30+分析团队40+挖掘模型流失预警模型快递员模型信用评估模型省级对内应用类经营分析团队财务数
23、据分析团队经营风险管控团队 .分公司应用类南京数据分析团队苏州数据分析团队无锡数据分析团队 .对外应用类百度ID团队尼尔森团队青稞团队 .基于开源大数据技术,构建电信大数据开放生态圈,实现对内对外的数据能力开放,目前已面向号百、已面向号百、NOC、终端公司、公信公司和分公司开放能力,终端公司、公信公司和分公司开放能力,初步实现与外部多个行业进行大数据产品开发与运营的协作模式。399个个南京:对399个重点区域的基站进行优化优省2.5 成效二:对内支撑企业规模发展降本增效成效二:对内支撑企业规模发展降本增效10%南京:优化后每个基站增加约10%用户150万元万元 基于大数据分析,开展客户价值导向
24、的4G网络建设和优化,提升4G用户体验,提高网络投资成本收益率4G基站优化成效显著基于大数据分析,对低流量用户进行分群和特征刻画,采用针对性营销,提升用户活跃率,规避业务风险流量经营营销成效显著基于大数据分析,开展流量经营各项精确营销支撑工作,针对性营销辅导,推荐流量产品收益1.79亿,占流量产品收入29.6%后向流量收入持续增长647波次波次全省累计发起营销辅导647波次1.79亿亿元元翼起来客户端推荐业务直接效益155M辅导81.8万低流量用户,户均提升达155M166万万成功推荐下载应用156万万徐州:月均提升流量17318G,月均提升流量收入151万万元元,年增收1248万万元元镇江:
25、月均提升流量8466G,月均提升流量收入104万元万元,年增收1812万元万元苏州:发现5个闲置4G基站 * 每个30万元建设运营成本,共计节省150万元成效二:对内支撑企业发展降本增效成效三:对外支撑行业应用拓展建设云计算平台+大数据平台,提升高校在大数据经济统计、电子商务、数据挖掘、社会网络分析、推荐系统、云计算、三维可视化和物联网等方面的研究水平。p 多模态舆情与决策支持系统的研究汇集互联网中的海量舆情信息,对其进行深度分析,提供舆情报告并实时推送敏感信息,为舆情监测、预警、干预等提供决策支持。p 大规模社区抽取的研究通过搭建一个基于hadoop分布式平台的BSP计算模型来并行处理数十亿
展开阅读全文