TiDB 的 HTAP 之路 - 过去现在和将来.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《TiDB 的 HTAP 之路 - 过去现在和将来.pptx》由用户(无敌的果实)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- TiDB HTAP 之路 过去,现在和将来 过去 现在 将来
- 资源描述:
-
1、TiDB 的 HTAP 之路过去,现在和将来About Me 分析产品负责人PingCAP 曾就职于网易杭研,担任 BigData Infra Team Lead 主要关注大数据,分布式数据库,SQL on Hadoop 等领域TiDB 有很多故事 每个故事都可以有多个视角 这是一个从 AP 视角讲 HTAP 故事的分享,当然还有技术讨论TiDB for HTAP100% TP 和 80% AP用户:为什么是 80% 不是 75%,也不是 85% ?TiDB for HTAPTiDB 是一款 HTAP 数据库所以,后来我们改用比较精确(时髦)的说法.TiDB for HTAPIts a lon
2、g long journey从 TiDB 的上古时代说起 受到 Google Spanner 启发,我们做了 TiDB 在 Pre GA 版本,TiDB 是 一个可自由扩容(算力,存储)的数据库 兼容支持 MySQL 语法和协议 透明的数据分片策略 - Range 分片 强一致,无视分片的分布式事务支持TiDB 架构 - 原始PDPDTSO/Data locationPDPD ClusterMetadataTiDBTiDBTiDBTiDBMySQLClientsTiKVTiKVTiKVTiKVTiKVTiKVDistSQL APISyncerTiDB.简单说:同款不同尺寸SXXXXXXXXXX
3、XLTP 处女秀 我们:TiDB 很好用的啦,可以替换分库分表 MySQL 做 TP 业务。 客户:我咋知道你们够稳定呢?我们先把生产库同步到 TiDB 集群测测看吧。TP 处女秀 我们:用的咋样? 客户:同步数据之后做实时分析真的挺方便的. 我们:.中台 AP 能力 TiDB 非常适合中台场景 协议兼容,轻松同步 MySQL 生产库 透明无障碍的跨分片查询 数据实时落地 海量存储允许多数据源汇聚 备库 - 中台分析二合一Everyone Happy Now?一年以后 TP 场景 客户:虽然还有各种问题.真香! AP 场景 客户1:年度报表算的好慢! 客户2:老是 OOM! 客户3:没法和大数
4、据平台结合!不匹配的算力不匹配的算力 TiDB 之间无法直接交换数据 TiKV 之间也无法在计算过程中交换数据 海量存储(TiKV),半单机计算(TiDB) 只能通过 TiDB 服务器 Scale-Up 改善 Coprocessor 无法处理需要数据交换的算子 Join,Full Aggregation,Distinct借助外力 - TiSparkSpark DriverTiSparkgRPCPlacementDriver (PD)retrieve data locationSpark ExecTiSparkSpark ExecTiSparkSpark ExecTiSparkgRPCretri
5、eve data from TiKVTiKVTiKVTiKVTiKVTiKVDistributed Storage LayerTiSpark Spark 帮我们做分布式计算 成熟的分布式计算平台 更快(?),更多,更稳(?) 完整继承 Apache Spark 生态圈 无痛衔接大数据生态圈 脚本,JDBC,Python,R,Apache Zeppelin,衔接 Hadoop 数仓.Everyone Happy Now?TiSpark Apache Spark 只能提供低并发的粗暴计算 计算模型重,资源消耗高 更合适报表和重量级 Adhoc 查询 用户在很多场合下仍需要高并发中小规模 AP 能力
6、 低消耗低延迟的复杂查询能力 TiDB 运维远比 Spark 集群简单与此同时.我们也在围绕单机 TiDB 进行各种优化在中小规模场景更聪明,更高效,更迅速优化器你叫它优化器? RBO + CBO 优化器 Cascades 优化器(WIP)执行器经典火山模型 JIT Batch Execution Vectorized Execution(WIP)更好的并发与 Pipeline分区表,Index Merge 等等TiDB 1.0 vs 2.0(Lower is better)Everyone Happy Now?核心矛盾 至此,我们仍然有 2 个核心矛盾: 行存对于分析场景不友好 没有列存,你
展开阅读全文