TiDB学习笔记01-分布式数据库-PingCAP

TiDB学习笔记01-分布式数据库

网友投稿 1065 2023-04-07

TiDB学习笔记01-分布式数据库

一代系统：数据库中间件

● 二代系统：NoSQL 数据库

● 三代系统(2013)：

○ Google Spanner 及其类似的 NewSQL (TiDB 3.0, CockroachDB)

○ AWS Aurora 及其类似架构的云数据库

● 新一代趋势：HTAP 数据库（以 TiDB 4.0 为代表）

数据库管理员(Database Administrator，简称DBA)

1.1 数据库中间件

两种实现模式：● 业务层手动分库分表（手动）● 通过中间件指定 Sharding Key 的模式水平分表（半自动）常见分片Key选择: user id、城市、时间常见分片规则：哈希分片、范围分片

数据库中间件的优点：● 架构相对简单● 对底层的关系型数据库改动不大，运维经验可以复用

缺点：● 只适用于简单业务，同时对业务有侵入性，需要改造● 很难支持跨分片的高性能复杂查询● 分布式事务性能损失　　○ 扩展问题：为什么会有性能牺牲？● 水平扩展能力差，只能按照选定的分片规则横向扩展● 大型集群运维困难　　○ 表结构变更（DDL）操作困难，容易出现失误　　○ 只能按照分片进行维护（备份、恢复等操作）

1.2 NoSQL - Not Only SQL

● 放弃高级 SQL 能力，追求强水平扩展能力（反过来意味着业务兼容的成本高）　　○ 放弃复杂 SQL 查询　　○ 放弃分布式事务（ACID）● 通常的数据访问模型：　　○ 键值对 (Key-Value)　　○ 文档型 (Document)● 代表系统：　　○ ***　　○ CouchBase　　○ ***　　○ ***● 在互联网行业比较活跃：2006 ~ 2012

NoSQL系统的优点：● 水平扩展能力强● 针对特殊类型数据效果好，可以作为关系型数据库的很好补充● 对于一致性要求不强的场景，可能会有更好的性能

缺点：● 由于不支持 SQL 业务需要进行较大的改造● 普遍无法支持事务，强一致场景比较难实现● 复杂查询受限

1.2.1 典型系统分析：***

● 文档型数据库● 仍然是通过选择 Sharing Key 的方式进行分片　　○ Range 或 Hash 分片● 优点：　　○ Scheme-less，对文档型数据比较友好● 缺点：　　○ 跨分片聚合能力差　　○ Rebalance 过程中会占用大量带宽　　○ 无跨分片事务

1.3 第三代分布式数据库 NewSQL

两种流派○ 以 Google Spanner 为代表的 Shared Nothing 架构○ 以 AWS Aurora 为代表的 Shared Everything 架构

1.3.1 Shared Nothing 流派

● 特点：　　○ 无限的弹性水平扩展　　○ 强 SQL 支持（几乎不需要妥协，无需指定分片策略，系统自动扩展）　　○ 和单机数据库一样的事务支持　　○ 跨数据中心故障自恢复级别的高可用能力● 代表产品　　○ Google Spanner　　○ TiDB 3.0 及之前版本　　○ CockroachDB

● 优点：　　○ 无限水平扩展，没有容量上限，对海量数据场景友好　　○ 对金融级别的一致性 ACID 事务支持，业务改动代价小　　○ 故障自恢复的高可用能力，运维省事　　○ SQL 能力强，和单机数据库的体验基本一致■ 例如：TiDB 支持 MySQL 的绝大多数语法和网络协议 (覆盖度超过 92%)　　○ 无限扩展的吞吐能力（和业务负载有关）● 缺点：　　○ 并非 100% 兼容传统数据库的语法(不支持存储过程)　　○ 对于一些极端场景（秒杀），延迟不如单机数据库（跨机，跨地域的分布式事务必然带来更高延迟）　　　　■ 例子：小事务平均 latency： 2ms（单机） vs 5ms （分布式）

1.3.2 Shared Everything 流派

代表产品：AWS Aurora、*** ***Cloud-Native● 通常由公有云提供　　○ 为什么？存储计算分离● 无状态 SQL 计算节点　　○ 计算节点通常直接复用MySQL，但是不存储数据● 远程存储（数据文件层）

优点：● 易用，100% 兼容 MySQL，业务兼容性好（最大优势）● 对一致性要求不高的场景，读可以水平扩展（但是有上限）缺点：● 本质上还是单机数据库，如果要支持大数据量，仍然需要分库分表● 内存和容量不匹配，在单表数据量大后，性能抖动严重● 跨机的事务一致性问题（存在同步延迟）● 分析能力受限于单点，几乎没有分布式 OLAP 能力

1.4 分布式 HTAP 数据库

● HTAP 的定义：Hybrid Transactional/Analytical Processing，混合事务分析处理● 分布式 HTAP 的标准　　○ 业务透明的无限水平扩展能力　　○ 分布式事务的支持　　○ 多数据中心故障自恢复的高可用能力　　○ 提供高性能的分析能力　　　　■ 提供列式存储能力　　○ 在混合负载下，实时 OLAP 分析不影响 OLTP 事务● 目前业界仅有 TiDB 4.0 能达到上述的要求　　○ TiDB + TiFlash (TiDB 的列存扩展)

OLTP 系统强调数据库内存效率，强调内存各种指标的命令率，强调绑定变量，强调并发操作；OLAP 系统则强调数据分析，强调SQL执行市场，强调磁盘I/O，强调分区等。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1065 2023-04-07

TiDB学习笔记01-分布式数据库

黄东旭解析 TiDB 的核心优势

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

TiDB学习笔记01-分布式数据库

微信扫一扫：分享

推荐文章

友情链接

热评文章