开源第一弹：什么是HBASE？-PingCAP

开源第一弹：什么是HBASE？

网友投稿 892 2023-04-27

开源第一弹：什么是HBASE？

在数据研究人员的工具集上有着大量的工具可以使用，这对于大数据技术，既是一件好事也是一件坏事。

当我们谈论从事大数据工作所使用的工具时，绝大部分讨论的会是Hadoop，Apache基金会关于Map Reduce和分布式存储系统的实现(HDFS是由Doug Cutting 阅读相关论文后在其供职于Yahoo时(他目前在Cloudera)建立的。但大数据工具很少单独工作，它是一个工具和数据库，以帮助数据研究人员能够更有效地分析他们的集合(或只是有利于加快速度)。

其中一项技术就是***。***的是一个非关系(NoSQL的)数据库，是Google BigTable的Java实现。它是柱状数据库中的一种。相对于关系数据库基于行存储数据，HBASE基于列存储。

不过这说起来容易，但其究竟是什么意思。让我们从对谷歌关于BigTable的相关文档的研究开始：

“Bigtable是一个具有稀疏性，分布性，持续性的多维有序映射。”

让我们深入其中，看看到底是什么意思。

稀疏

直觉上认为数据库稀疏的定义是数据库具有较少的数据项，但实际上，稀疏的意义是指数据库中数据项的数据列缺乏足够的数据。对于HBASE，之所以说它具有稀疏性，是因为它可以在其实体中容纳稀疏性数据。而对于关系表，将要求您填写的所有字段(或大部分)(想想你的关系数据库中客户资料表)。柱状数据库可以为空或NULL且不影响数据库的功能。此外，这也给你带来了其他好处，使你能够快速的添加其它你想捕捉的数据。在关系数据库中，创建一个架构(FirstName，LastName，SS#，TelephoneNumber)，并希望在创建时已经得到所有你需要捕获的数据。NoSQL数据库无需设计过于复杂的架构，允许您根据需要在不中断业务正常流动时添加字段。

分布式和持久化

多维排序Map

一个Map(有时被称为关联数组)其中存储的键值索引不必是整数，可以是任意的字符串。其实质是键值对集合，且要求键具有惟一性。其中键按照字典序排列。(需要注意的是：此处的字典序不是按字母顺序排列，也不是按数字顺序，而是按字符串的Unicode值进行排序)

你的得与失

使用***可以让你对存储在Hbase的数据进行预处理和后处理操作，并给予你更大的灵活性和快速处理数十亿行数据的能力。不利的一面是，当您使用 HDFS的替代***，使用像Hive(类SQL数据检索)那样的工具会比在普通的HDFS慢4-5倍。此外，可以容纳数据的***容量约为1 PB而不是HDFS中的30PB。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

892 2023-04-27

开源第一弹：什么是HBASE？

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20