爱奇艺大数据平台的构建之路.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《爱奇艺大数据平台的构建之路.pptx》由用户(无敌的果实)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 爱奇艺大 数据 平台 构建
- 资源描述:
-
1、爱奇艺大数据平台的构建之路目录 爱奇艺大数据平台的挑战 平台的构建之路1.0 专业化2.0规模化3.0生态化 案例 总结20112010爱奇艺大事记6月23日“奇艺出品”战略11月26日品牌战略升级为“爱奇艺”4月22日视频网站“奇艺”正式上线201211月2日2016爱奇艺成为百度的全资子公司20135月7日爱奇艺与PPS合并提供更优质服务2月7日独家直播2016猴年春晚除夕当晚总播放量突破4500万4月15日2015太阳的后裔26亿播放量收官微博话题阅读量达122亿微指数峰值达到83万20142月18日羊年春晚独家在线直播7月6日5月6日2016爱奇艺世界大会圆满收官中国首个开放娱乐生态首
2、次展现全貌构建“爱奇艺世界观”6月1日盗墓笔记全集上线60小时总播放量破10亿10月14日爱奇艺VI P 会员品牌全面升级12月1日爱奇艺VIP会员突破1000万7月17日爱奇艺宣布成立影业公提出“爱7.1电影大计划”爱奇艺有效VIP会员数已突破2000万爱奇艺移动端 核心指标行业领先移动端数据l 爱奇艺移动端以3.3亿人的月度覆盖位列行业第一,总体占比高达55%,行业领先优势持续加大l 爱奇艺移动端月度总使用次数(活跃度)达212亿次,成为视频用户首选(数据来源:艾瑞MUT,2 016 年8 月)日均覆盖人数 NO.1月度覆盖人数 NO.1月度浏览时间NO.1月度覆盖人数(万人)32,592
3、.8月度浏览时间(万分钟)21,148,529.5日均覆盖人数(万人)13,735.6爱奇艺腾讯视频优酷爱奇艺腾讯视频优酷爱奇艺优酷8,770.36,163.92,631.71,851.21,065.921,555.418,923.412,981.77,742.34,415.618,160,244.58,585,908.53,984,815.3腾讯视频乐视视频风行视频搜狐视频土豆网乐视视频芒果TV芒果TV2,491,726.02,159,663.51,370,436.21,218,759.2834,657.4乐视视频搜狐视频风行视频PPTV网络电视土豆网风行视频搜狐视频土豆网960.0593.
4、23,518.82,440.22,185.4芒果TV543.4111.5PPTV网络电视凤凰视频PPTV网络电视响巢看看响巢看看568.1161,279.1(数据来源:艾瑞MUT,2016年8月)(数据来源:艾瑞MUT,2016年8月)(数据来源:艾瑞MUT,2016年8月)挑战30X2PB+/day 10PB/人数据量日均处理量人均运维量爱奇艺大数据应用TA精算大剧探针爱奇艺指数大数据后羿(会员精准营销系统)电影探针VIP服务广告投放品牌分析众里寻TA剧场受众分析一搜百映追星族、接力赛、群英荟1.0专业化 时间:2010 2013 规模MapReduce 集群:50 330台 存储:16PB
5、HiveHBase 计算:HDFS 日均作业:3万 日均tasks数:220万 日处理数据:150TB 开源服务 HDFS、MapReduce、Hive、HBase1.0专业化痛点方案 业务自己维护集群 运维不规范 集中到云平台管理 脚本化、流程 Ganglia+Nagios 半监控状态 Name/Space Quota(1.3亿小文件,2PB冷数据)小文件多/存储压力大 Jobtracker性能瓶颈 改源码,JT任务调度加快12倍JobTracker调度性能差 Hadoop1.x+FairScheduler 同时运行的任务多 调度时间60ms 心跳延迟大 解决方案:修改FairSchedul
6、er源代码,一次排序分配多个任务 修改后调度时间5ms2.0规模化 时间:2014 2015工作平台 规模MapReduceSparkStreamingSparkStorm 集群:1000+台 存储:30PB 计算:YARN/M esosHiveHBase 日均作业:8万 日均tasks数:1800万 日处理数据:900TBHDFS 开源服务 HDFS、MapReduce、Hive、HBase Spark、Storm2.0规模化痛点方案 运维脚本较散乱 存储成本骤增 离线服务延迟大 资源利用率不够高 权限控制不够 故障处理慢 Hadoop工作平台 Parquet+gz组合(省20%)推广Spa
7、rk、Storm 升级到Yarn(提高21%)Kerberos、HDFSACL 源码解决(贡献了45+Patch)Hadoop工作平台 后台管理(CMDB)集群、服务器、配置、用户等 运维管理 运维操作Web化,配置与脚本分离运维管理数据管理公共库管理 脚本Ansible为主,Python为辅后台管理(CMDB)数据管理 数据注册与发现 MetadataAPI 公共库管理 HiveUDFYARN升级对比项Hadoop 1.0Hadoop 2.0(YARN)计算框架只支持MapReduceYARN成为一个通用的资源管理系统,支持MapReduce、Spark、Storm等目前比较流行的计算框架,
8、甚至还允许用户自定义计算框架调度JobTracker负责所有的任务调度,负担 双层调度:应用调度、应用内task s调度。较重 将应用内调度交给应用自己负责,减轻调度器负担资源隔离将资源简单地划分为slot,比如1slot=使用LXC进行隔离,用户可以自己申请需要多少资(1CPU,2GB Mem);源,更加灵活、更充分利用;将slot资源人为地划分为map、reduce,2.6开始支持Docker不适用于动态变化的生产环境Availability单点HA作业运行时间475s201s(降低57.7%)资源利用率(min/avg/max)CPU:15.4%/40.7%/61.2%Memory:35
9、.7%/41.4%/45%CPU:20.4%/49%/73.9%(高峰时提高21%)Memory:24%/33%/40%(高峰时下降11%)Spark inIQIYI 部署方式 Standalone(虚机为主)SparkonYarn(占Yarn2030%资源)Spark onYarn 优点:资源共享、扩容方便 缺点:对于实时任务,会受大集群波动影响 优化 使用yarn-cluster模式 禁止YARN重启应用,用户通过平台(Europa)控制重试策略 开发了Spark访问HBase的Kerberos验证,并定期刷新Token 根据执行器的核数自动配置GC策略Spark 算法优化 Hadoop
10、Mahout-Spark Mllib LogisticRegression/DecisionTree/LDA/ALS 算法实现优化 LR/ALS/FP-growth:实现调优和BUG修复 AllPairSimilaritySearch(APSS)计算出每个item最相似的TOPK个item,并返回它们之间的相似度 实测性能大约对600万个item的集合计算两两相似度,并返回每个item的TOP16 2小时-20分钟社区贡献 爱奇艺向ApacheHadoop社区贡献45+Patches,如:HDFS-7798:解决Checkpoint失败问题 HDFS-8113:解决bloc kreport失败
展开阅读全文