黄东旭解析 TiDB 的核心优势
867
2023-04-16
2022年数据库发展总结
那么你知道中国的数据公司有多少吗?据不完全的统计已经超过 300 +, 那 2023 年数据库市场又是什么变化呢?我这里抛出来 5 个问题和大家讨论一下。
Q1. 中国和海外数据库的差距还有多远?
Q2. 未来是 OLTP 还是 OLAP ?
Q3. 从国际上来看 HTAP 是不是未来?
Q4. MySQL DBA 和大数据从业者会有什么改变?
Q5. 现在还是不是数据方向的创业好的时机?
Q1: 中国和海外数据库的差距还有多远?
如果单纯的比中国数据库和海外数据库差多远,其实都比较主观,那么不如通过 OB 打榜 TPCC 来分析一下。
粗略整理了一些数据方便对比:
从上面的数据看,测试数据基本上都是贴着 12.86 进行,你懂的。
如果通过这个测试来对比中国数据和海外数据库的先进,我的观点是:
1. 中国的分布式数据库可以进行 PB 级别的操作
2. 中国的分布式数据可以进行到上十万个+ core 一起工作
3. 中国分布式服务器可以达到上千台一起工作
那我们先进吗?我只能说我目前没看到有项目能运行起来这个环境,毕竟一个数据库项目花 28亿人民币(3年费用),我还没见过。OB 的测试基于是基于云上来评测的。我们也来看看海外的云上的 RDS 及对应的报价。
*** Cloud 上 MySQL 报价
MySQL 单集群 HTAP 解决方案,月成本:2万美金,存储最大支持: 50T 。
AWS Aurora VM 报价
AWS 的 Aurora 最高配支持 5 PB 存储每月 517,256 美元,其中存储太贵占到:512,000 美元,实际生产中肯定不会这么干,真正的 OLTP 数据不会有这么多,更多的数据可以归档到 Databend ,Snowflake 类在线数仓中来降低成本,这类云数仓每 TB 的成本一个月在 120元左右。
*** ***
这个就成本算我觉得阿里的 *** 价格是优于 *** , AWS 的价格。回过头来看:中国的数据库和海外的数据库差距还有多远?
从 [DB-engines](DB-Engines Ranking - popularity ranking of relational DBMS[1]DB-Engines Ranking - popularity ranking of relational DBMS[2]) 排名上看到 TiDB 排名 49 位,*** 排名 79 位, *** 排名 87 位, *** for MySQL 排名 101 位, ***前150名排名中进入 4 位。
我的感觉确是我们部分场景确时超越海外的产品,但海外的产品感觉向着更加务实的方向在发展。反观国内这种超大集群的引导,造成的用户不必要的成本浪费。
海外数据库今年发展方向:
- 更加易用的方向发展:更方便维护,例如 PlanetScale 在 OLTP 中对数据引入 git branch 概念
- DB Serverless 按使用时间付费,存储按使用空间付费,不再为预留付费
从这些方面看来,国内的数据库追赶的很快,国内也有上面类似的产品,但真正 get 到灵魂,这些理念被企业所接受,估计还需要 3-5 年时间。
Q2. 未来是 OLTP 还是 OLAP ?
首先从 TPCC 打榜上来看,数据库厂商对于这个 Benchmark 大都是失去兴趣了,也冷静了,微信群里也没有因为打榜而进行口水,我们也成熟了。因为基本上大家也都明白,在一定成本预算下,选择出来合适的产品就可以。例如:业务对 SQL 响应指标要求 500 ms 以下,支持 3000 QPS 就可以满足业务,支持到 IPO 没啥问题了,在这样的前提下,大家肯定不再是按打榜来选择,因为大家在数据库这个方向上有所积累后,可以选择的开源产品太多了,甚至云的上 RDS 采购一个也够用了。整体上来看现在 OLTP 已经非常成熟,现在 OLTP 卖货,更多是打着安全,有保障,合作联合开发(卖数据库保险一样在卖货) 。
大家口水了多年:MySQL ,*** 谁更强,争论多年后,也终于有了一个初步的结果。在互联网领域里 MySQL 还是当之无愧的王者, Pg 也在国产化领域中披上各种马甲在冲锋, MySQL 也在披着马甲,还有套着 Pg 往前冲的。基本上也可以说 OLTP 基本是一种成熟状态,最终谁能在这波浪潮中赢下来,就看谁能拥抱一个更加开放的生态,整合更多的合作伙伴,输出更多解决方案,例如:银行系统运行,火车票售票系统, 电力的数据库系统。
OLTP 的成熟,但 OLTP 的成本通常比较高,大家也会把 OLTP 的数据慢慢转向 OLAP 对外提供服务,也就意味着 OLAP 可以创造更多的财富?我现在算是从 OLTP 跨入了 OLAP ,给大家分享俩个 2022 年我看到案例。
举了俩个个人在使用 OLAP 的场景,其实企业的使用 OLAP 的场景也非常多,也有成熟的套路,只是后续的 OLAP 的成本会越来越低,越有利于用户的使用。
目前也可以说是海量的数据时代,在 OLAP 中数据到 PB 级都和玩一样,今年经历了 N 多单天数据量在 100T 以上的项目,也让我对 Databend 这个项目产生了非常大的敬意,这类数据的压缩基本能达 8-20倍的压缩, 同时还能较好的支持计算。
新一代的云原生 OLAP 也在替代着传统大数据项目, SQL 成为统一语言,新一代的云原生 OLAP 也会让大数据项目越来越简单。OLAP 让大数据项目也在向着:更便宜,更好用,高性能 的方向发展。
Q3. 从国际上来看 HTAP 是不是未来?
HTAP( Hybrid transaction/analytical processing) 是一个数据库的超融合方案,把事务处理和分析处理都集中在一个系统中对外提供服务。目前这也是 OLTP 方向的数据库在追求的一个重要方向。
目前国内实现 HTAP 数据库有:
TiDB
***
*** (阿里)
***-H ( ***)
海外实现 HTAP 数据库有:
MySQL + Heatwave
Snowflake
AlloyDB( Google)
Aurora + Redshift
可以说一时间大家把是否支持 HTAP 作为数据库对比的一个重要指标,更夸张的一个论调说:HTAP 是 MySQL 生态的最佳归宿。实质上这里有一个前提在 10TB 以下 HTAP 感觉可以一战,再大一点 HTAP 的方案的成本不是一般用能扛住。以至于很多用户产品演示时上最贵的 HTAP 过关再说,交付时可能挂一个*** 也能满足客户实际场景也不少, 同时今年可能是因为行情不好,遇到挺多跑300-400台 HTAP 集群,数据量在 500T 左右的用户抱怨复杂 SQL 影响整体集群处理能力,也不太敢扩容,把数据定期归档到 Databend ,利用 Databend + 对象存储对外分担一部分的查询分析,从而降低成本。
那么 HTAP 是不是未来?
我觉得是的。用户最终赚钱的是业务,让业务可以更加简单的可以在数据库上运行起来,把 OLTP 和 OLAP 包装起来对用户透明,绝对是一个非常硬的需求,这估计也是 Snowflake 今年增长特别快的原因之一吧。
Q4. MySQL DBA 和大数据从业者会有什么改变?
这个时代一切都在变, 我刚工作那会能把 LAMP + Squid 顺利 40 分钟内安装完毕入职 Sina 都没啥问题了,再早一点帮别人安装一个 *** RAC 一晚上赚个 IBM T40 也没啥问题,再后来 *** OCP 失业了, MySQL 时代来了, 大数据时代来了,AI 时时代来了,一浪接一浪,总有拍死在沙滩上的,当然也有乘风破浪的弄潮儿,其实在这些 IT 大浪中,你能抓住一浪基本生活无优,早期 BAT 的朋友不知道是不是有钱,还看到他们天天加班,但都住着千万以上的房子,开最骚气的车。我说这些想表达什么呢?我想说:选择比努力更重要
MySQL DBA 和大数据从业者从业者会有什么挑战呢?
首先我们说一下 MySQL DBA 面临什么挑战?
MySQL 方面的技术,现在非常成熟,合理的使用基本可以做到按年计算不停机
MySQL 在现在开发架构中已经融入 Serverless , 离服务越来越近
更多的用户选择了使用云上 RDS 开局, 传统的 DBA 事情越来越少
研究 MySQL 内核上手的人也越来越多
现在有利于 MySQL DBA 的点:
k8s + MySQL 的融合需要更多面向 IaC 方面的 DBA
有较强业务能力的 MySQL DBA 会有越来越多的机会
其实早期各个云 RDS 出现后, DBA 圈子里就有一种声音:云平台的 RDS 可能把 MySQL DBA 干掉, RDS 平台的人员还各种掩饰这个问题,现在看来是真正发生了 :) 其实这个也可是可以预见的,一个云平台 RDS 开发通常在百人以上的规模,把 DBA 能想到事情,基本都可以自动化实现了。
再来说一下面向大数据人员面临的挑战:
传统的复杂的大数据会趋向越来越简单化,以前看大数据架构中,很多公司在重度依赖 kafka, 存储可能 40 台, 中间的 Kafka + 数据洗清机器可能是 80-100 台
中心化团队,容易成为瓶颈,整天奔跑在救火线上的工作模式
现在利用于 大数据从业 人员的点:
内心对数据质量有一定的敏感
理解不同数据的使用习惯和资源的空闲
经历过大数据业务系统的磨砺(建立在对业务有理解的基础上)
大数据平台原来那波 Hadoop 生态的的现在可能是 Hive, Hbase, HDFS 为主,HDFS 的成功,也让很多做对象存储创业较为成功,例如 xsky 对象存储,在互联网和传统企业都占据了半壁江山。但 Hive 现在也在被很多产品所替代,如;Doris, Clickhouse, Presto, Trino, Impala, 还有国内很多基于 Greenplum 的二开产品,也有新生代云原生数仓:Databend 都在看着这块市场。
那么 MySQL DBA 和大数据从业人员未来在哪里?
MySQL DBA 如果不转型现在最好的归宿乙方数据库公司,如果能跟上节奏抓着 MySQL + k8s 或是 熟悉 Terraform , SQL 自动审核类工具,了解 CI 还可以在互联网企业一战(DevOPS 运维时代真的来了,运维代码化,避免了面传口授,无法追录过程的运维时代), 其实也给了互联网 DBA 一个更大的想象空间,例如利用云轻松实现多 IDC 多中心设计,利用 metabase 轻松实现一个 CMDB + 数据控查询系统,利用 terraform 轻松把基础资源管理起来。
大数据人员现在分为两类,一个报表展现人员,另一个数据整理人员,比较危险的是数据整理人员,对于 Databend 这类云原生数仓( Snowflake 开源实现)中很多理念如果落地,会大大简化大数据方面人力和资产的投入,把大数据走向一个 case by case 模式,同时又较方便的实现各部门数据的共享,互惠。大数据数据人员最终会变成数据质量,数据血缘方面的专家。
Q5. 现在还是不是数据方向的创业好的时机?
对于数据库创业来讲,我觉得今年可能不是一个好时间,但市场也不缺乏好机会。为什么说现在不是一个好时间呢?2021年资本差不多已经完成了数据软件的布局,很多公司甚至也是高估值拿到了融资,这个过程中也不乏一些摸鱼创业者,其实资本也都不傻,都会看明白的。我们知道对于基础架构创业比较漫长,看海外的产品 10 年都属于正常现象, 第一个 3 年能完成产品开发+打磨迭代到成熟, 然后就是3-4年的生态建设,接下来 3 年才是商业收获的过程,这个过程也可以说是漫长的,对资本来讲是一个收获比较慢的过程。数据库融资方面感觉在 2021 年 10 月份以后,资本忽然集体冷静下来了。2022 年也可以说是市场最不景气的一年,但也不要泄气,看美国成名的数据库公司也都是在经济危机时间创建的,经济危机时不知道做什么,就节衣缩食,专心做个数据库吧。
但我们需要明白中国的数据库市场相对还是比较低,据 2021 年的市场评估,全球数据库市场 700 亿美元, 中国市场只有 47 亿美元,仅占 5.2%。这以至于 2022 年大部数据库公司也在忙着社区建设,更多的希望通过开源带动商业发展,以至于现在给我的感觉是全球基础架构开源看中国。
国内数据库市场是面对大额采购时,各大公司的 CTO, CIO 可能至少面对 10 家以上(现在数据库估计在 400 家以上) 的数据库公司在清洗, 大公司的 CTO, CIO 也都是经过市场考验的战士,他们也是冷静的决策者,以至于决策过程也变得更加的长。
那么现在还是不是数据库公司的创建的好机会,我觉得市场在这个冷静期,以及 2022 年资本市场环境不好, 2023 年估计会有不少数据创业公司离场,但随着*** IPO 成功,我估计还会让资本有点小小的冲动。另一个实际情况是 MariaDB 借壳上市直接到现在跌了差不多 70% + 。
那对于想进入数据库创业者的机会是什么样呢?
现在看来单纯创业上来讲, 做现有数据库的改善或是增强,甚至是数据生库的服务都比从 0 开始做一个数据库比较安全。这块在 Rust 生态有一些不错的参考,如:
readyset 用于提升现有数据库的性能和可用性,支持 MySQL, *** , 看到这个项目时,也让我想起了内心一直在规划的 update server , 看看别人已经实现了。
我觉得这些是有绝对的生命力,也是对社区和业务是有绝对帮助的。如果你一定要在这个方面创业,你也可以考虑这些方向,例如我现在也比较看好的
*** 实时数据同步工具,有点把 *** 的 Golden Gate SAAS 化的感觉
sqlpad[3] 网页版本的 SQL 编辑器
另外如果对数据库方面创业有较强的执念,可以先想清楚定位,不能只把生意定位在国内还是海外,一定要想清楚做这个事情究竟可以给社会创造什么价值,这才是真正存活的下来的根本。创业的本质就是:忍人之所不能忍,能为人之所不能为。创业没有最好的时间,也没有最差的时间,这只是一种生活的方式,如果你想这一生要做点什么才无悔,就加入进来吧。数据市场上还有多事情可以一起合作,共建这个生态。Dongxu 也是这个方向比较好的天使投资人,如果你想好了就加入进来吧。2023 年一起携手共进。
审核编辑 :李倩
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。