对Primary-backup分布式数据库分布式一致性的猜想-PingCAP

对Primary-backup分布式数据库分布式一致性的猜想

网友投稿 724 2023-04-07

对Primary-backup分布式数据库分布式一致性的猜想

昨天读了paxos算法，心里对分布式一致性有一些想法：如果是我，应该怎么实现数据库集群的一致性呢?

paxos算法本身并没有提到其应用，所以实际使用情况应该较复杂。而我平时接触到使用分布式一致性算法的就是mongodb replicaset。它和zookeeper相似，只是它的data model不只包括集群配置，还有其庞大复杂的数据库。

paxos为何需要两阶段?也许是在learn的时候方便直接使用?也许是

印象中mongodb选master只需要一次请求就行(貌似slideshare上的mongo讲义上看的)，只要提出请求等待被accept就行，如果它得到多数回应接受，它就成为新的master(如果多数都回应了acceptance,但是它不知道，那么它就不是master,是master的条件是它已经知道,如果它不知道它就一直询问直到得到多数回应),它向所有node发出通知自己是master。对于每个数据写请求，通过master发送给所有node之后，收到大多数的acceptance后master才认为写入成功,它发出通知最新版本是oplogid，没有更新到最新的node就从server拿数据。如果发现master挂了（或者连接超时)而能连上多数节点,就发出一个选举自己当master的提议，收到多数acceptance(acceptor只有在连不上原来master的情况下才同意)才认为自己已经是master,它发出通知它已经是master了，得到多数节点"知道了"的回应(这些节点就停止接收旧master的数据)，然后它向集群中的节点查询最新版本,根据多数回应决定它需要同步多少数据，选择一个它认为的包含最新版本的节点，同步好这些数据之后它就开始处理新的写请求了。

需要特别说明的是，对于数据写,master可能不知道大多数是否已经写成功，如果无法确知它会一直询问，直到得到多数回应。只有样它才进行后面的写操作。注意还有一个majority的问题，要等待数据写成功的majority应该要设置得比集群一半大一些，比如21个节点的集群，11个就已经超过一半，但写成功的等待比如超过15台才觉得合适。因为如果只是设成11，这11台当时写成功了，但过了一会有一台挂了等于没构成多数，还是没写成功。因此等majority写成功不意味着一定写成功了，但是这个majority设得高一些，成功率可以接近100%。而查询状态的majority只要超过1半就行。

上述系统由于需要很多通信完成同步，要求节点之间延迟较低，在master选择之后，写操作全由master发起，写性能比较差，节点越多写得越慢(扩展性不好),读操作象zookeeper那样从本地读取。zookeeper中切换server节点，不允许切到更低版本的server,这点在web上很有用。你总是要看更新的状态，不能刷新一下回到过去的状态。mongodb的java driver似乎没有做这个工作。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

724 2023-04-07

对Primary-backup分布式数据库分布式一致性的猜想

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

对Primary-backup分布式数据库分布式一致性的猜想

微信扫一扫：分享

推荐文章

友情链接

热评文章