一脸懵逼学习HBase---基于HDFS实现的。（Hadoop的数据库，分布式的，大数据量的，随机的，实时的，非关系型数据库）-PingCAP

一脸懵逼学习HBase---基于HDFS实现的。（Hadoop的数据库，分布式的，大数据量的，随机的，实时的，非关系型数据库）

网友投稿 757 2023-04-06

一脸懵逼学习***---基于HDFS实现的。（Hadoop的数据库，分布式的，大数据量的，随机的，实时的，非关系型数据库）

2：***表结构：建表时，不需要指定表中的字段，只需要指定若干个列族，插入数据时，列族中可以存储任意多个列（即KEY-VALUE，列名称-列值）;一个value可以有多个版本，通过版本号来区分（时间戳）

3：要查询某一个具体的字段，需要指定坐标：表名---->行健---->列族(ColumnFamily)：列名（Qualifier）---->版本;

4：***简介：　　*** – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用***技术可在廉价PC Server上搭建起大规模结构化存储集群。***利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理***中的海量数据，利用Zookeeper作为协调工具。

5：***基本概念知识：

5.4：***中有两张特殊的Table，-ROOT-和.META.　　　　（a）：-ROOT- ：记录了.META.表的Region信息，-ROOT-只有一个region　　　　（b）：.META. ：记录了用户创建的表的Region信息，.META.可以有多个regoin 　　　（c）：Zookeeper中记录了-ROOT-表的location　　　　（d）：Client访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问；

6：***基础知识：　　6.1：物理存储　　　Table 在行的方向上分割为多个HRegion，一个region由[startkey,endkey)表示　　6.2：架构体系　　　　（a）：Client 包含访问hbase 的接口，client 维护着一些cache 来加快对hbase 的访问，比如regione 的位置信息　　　　（b）：Zookeeper 　　　　　　保证任何时候，集群中只有一个running master；　　　　　　存贮所有Region 的寻址入口；　　　　　　实时监控Region Server 的状态，将Region server 的上线和下线信息，实时通知给Master；　　　　　　存储Hbase 的schema,包括有哪些table，每个table 有哪些column family；　　　　（c）：Master 可以启动多个HMaster，通过Zookeeper的Master Election机制保证：

总有一个Master运行　　　　　　为Region server 分配region；　　　　　　　负责region server 的负载均衡；　　　　　　　发现失效的region server 并重新分配其上的region；

7：***的Region Server基本概念：　　（a）：维护Master 分配给它的region，处理对这些region 的IO 请求　　（b）：负责切分在运行过程中变得过大的region　　（c）：可以看出，client 访问hbase 上数据的过程并不需要master 参与，寻址访问先zookeeper再regionserver，数据读写访问regioneserver。HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是***中最核心的模块。

8：***学习前提与相关软件：

名称	命令表达式
创建表	create '表名', '列族名1','列族名2','列族名N'
查看所有表	list
描述表	describe ‘表名’
判断表存在	exists '表名'
判断是否禁用启用表	is_enabled '表名' is_disabled ‘表名’
添加记录	put ‘表名’, ‘rowKey’, ‘列族 : 列‘ , '值'
查看记录rowkey下的所有数据	get '表名' , 'rowKey'
查看表中的记录总数	count '表名'
获取某个列族	get '表名','rowkey','列族'
获取某个列族的某个列	get '表名','rowkey','列族：列’
删除记录	delete ‘表名’ ,‘行名’ , ‘列族：列'
删除整行	deleteall '表名','rowkey'
删除一张表	先要屏蔽该表，才能对该表进行删除第一步 disable ‘表名’ ，第二步 drop '表名'
清空表	truncate '表名'
查看所有记录	scan "表名"
查看某个表某个列中所有数据	scan "表名" , {COLUMNS=>'列族名:列名'}
更新记录	就是重写一遍，进行覆盖，hbase没有修改，都是追加

10：hbase数据模型：

1.Row Key 与nosql数据库们一样,row key是用来检索记录的主键。访问HBASE table中的行，只有三种方式： a.通过单个row key访问 b.通过row key的range（正则） c.全表扫描 Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在HBASE内部，row key保存为字节数组。存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)2.Columns Family 列簇：HBASE表中的每个列，都归属于某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如 courses:history，courses:math都属于courses 这个列族。3.Cell 由{row key, columnFamily, version} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存贮。关键字：无类型、字节码4.Time Stamp HBASE 中通过rowkey和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由HBASE(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，HBASE提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。

11：hbase依赖zookeeper：

1、保存Hmaster的地址和backup-master地址 hmaster： a)管理HregionServer b)做增删改查表的节点 c)管理HregionServer中的表分配2、保存表-ROOT-的地址 hbase默认的根表，检索表。3、HRegionServer列表表的增删改查数据。和hdfs交互，存取数据。

12：hbase开发：

12.hbase开发　　12.1.配置　　 ***Configuration 包：org.apache.hadoop.hbase.***Configuration 作用：通过此类可以对***进行配置用法实例： Configuration config = ***Configuration.create(); 说明： ***Configuration.create() 默认会从classpath 中查找 hbase-site.xml 中的配置信息，初始化 Configuration。使用方法: static Configuration config = null; static { config = ***Configuration.create(); config.set("hbase.zookeeper.quorum", "slave1,slave2,slave3"); config.set("hbase.zookeeper.property.clientPort", "2181"); } 12.2.表管理类 ***Admin 包：org.apache.hadoop.hbase.client.***Admin 作用：提供接口关系*** 数据库中的表信息用法： ***Admin admin = new ***Admin(config); 12.3.表描述类 HTableDescriptor 包：org.apache.hadoop.hbase.HTableDescriptor 作用：HTableDescriptor 类包含了表的名字以及表的列族信息表的schema（设计）用法： HTableDescriptor htd =new HTableDescriptor(tablename); htd.addFamily(new HColumnDescriptor(“myFamily”)); 12.4.列族的描述类 HColumnDescriptor 包：org.apache.hadoop.hbase.HColumnDescriptor 作用：HColumnDescriptor 维护列族的信息用法： htd.addFamily(new HColumnDescriptor(“myFamily”)); 12.5.创建表的操作 CreateTable（一般我们用shell创建表） static Configuration config = null; static { config = ***Configuration.create(); config.set("hbase.zookeeper.quorum", "slave1,slave2,slave3"); config.set("hbase.zookeeper.property.clientPort", "2181"); } ***Admin admin = new ***Admin(config); HTableDescriptor desc = new HTableDescriptor(tableName); HColumnDescriptor family1 = new HColumnDescriptor(“f1”); HColumnDescriptor family2 = new HColumnDescriptor(“f2”); desc.addFamily(family1); desc.addFamily(family2); admin.createTable(desc); 12.6.删除表 ***Admin admin = new ***Admin(config); admin.disableTable(tableName); admin.deleteTable(tableName); 12.7.创建一个表的类 HTable 包：org.apache.hadoop.hbase.client.HTable 作用：HTable 和 *** 的表通信用法： // 普通获取表 HTable table = new HTable(config,Bytes.toBytes(tablename); // 通过连接池获取表 Connection connection = ConnectionFactory.createConnection(config); HTableInterface table = connection.getTable(TableName.valueOf("user")); 12.8.单条插入数据 Put 包：org.apache.hadoop.hbase.client.Put 作用：插入数据用法： Put put = new Put(row); p.add(family,qualifier,value); 说明：向表 tablename 添加 “family,qualifier,value”指定的值。示例代码： Connection connection = ConnectionFactory.createConnection(config); HTableInterface table = connection.getTable(TableName.valueOf("user")); Put put = new Put(Bytes.toBytes(rowKey)); put.add(Bytes.toBytes(family), Bytes.toBytes(qualifier),Bytes.toBytes(value)); table.put(put); 12.9.批量插入批量插入 List list = new ArrayList(); Put put = new Put(Bytes.toBytes(rowKey));//获取put，用于插入 put.add(Bytes.toBytes(family), Bytes.toBytes(qualifier),Bytes.toBytes(value));//封装信息 list.add(put); table.put(list);//添加记录 12.10.删除数据 Delete 包：org.apache.hadoop.hbase.client.Delete 作用：删除给定rowkey的数据用法： Delete del= new Delete(Bytes.toBytes(rowKey)); table.delete(del); 代码实例 Connection connection = ConnectionFactory.createConnection(config); HTableInterface table = connection.getTable(TableName.valueOf("user")); Delete del= new Delete(Bytes.toBytes(rowKey)); table.delete(del); 12.11.单条查询 Get 包：org.apache.hadoop.hbase.client.Get 作用：获取单个行的数据用法： HTable table = new HTable(config,Bytes.toBytes(tablename)); Get get = new Get(Bytes.toBytes(row)); Result result = table.get(get); 说明：获取 tablename 表中 row 行的对应数据代码示例： Connection connection = ConnectionFactory.createConnection(config); HTableInterface table = connection.getTable(TableName.valueOf("user")); Get get = new Get(rowKey.getBytes()); Result row = table.get(get); for (KeyValue kv : row.raw()) { System.out.print(new String(kv.getRow()) + " "); System.out.print(new String(kv.getFamily()) + ":"); System.out.print(new String(kv.getQualifier()) + " = "); System.out.print(new String(kv.getValue())); System.out.print(" timestamp = " + kv.getTimestamp() + "\n"); } 12.12.批量查询 ResultScanner 包：org.apache.hadoop.hbase.client.ResultScanner 作用：获取值的接口用法： ResultScanner scanner = table.getScanner(scan); For(Result rowResult : scanner){ Bytes[] str = rowResult.getValue(family,column); } 说明：循环获取行中列值。代码示例： Connection connection = ConnectionFactory.createConnection(config); HTableInterface table = connection.getTable(TableName.valueOf("user")); Scan scan = new Scan(); scan.setStartRow("a1".getBytes()); scan.setStopRow("a20".getBytes()); ResultScanner scanner = table.getScanner(scan); for (Result row : scanner) { System.out.println("\nRowkey: " + new String(row.getRow())); for (KeyValue kv : row.raw()) { System.out.print(new String(kv.getRow()) + " "); System.out.print(new String(kv.getFamily()) + ":"); System.out.print(new String(kv.getQualifier()) + " = "); System.out.print(new String(kv.getValue())); System.out.print(" timestamp = " + kv.getTimestamp() + "\n"); } } 12.13.hbase过滤器 12.13.1.FilterList FilterList 代表一个过滤器列表，可以添加多个过滤器进行查询，多个过滤器之间的关系有：与关系（符合所有）：FilterList.Operator.MUST_PASS_ALL 或关系（符合任一）：FilterList.Operator.MUST_PASS_ONE 使用方法： FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ONE); Scan s1 = new Scan(); filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(“f1”), Bytes.toBytes(“c1”), CompareOp.EQUAL,Bytes.toBytes(“v1”) ) ); filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(“f1”), Bytes.toBytes(“c2”), CompareOp.EQUAL,Bytes.toBytes(“v2”) ) ); // 添加下面这一行后，则只返回指定的cell，同一行中的其他cell不返回 s1.addColumn(Bytes.toBytes(“f1”), Bytes.toBytes(“c1”)); s1.setFilter(filterList); //设置filter ResultScanner ResultScannerFilterList = table.getScanner(s1); //返回结果列表 12.13.2.过滤器的种类过滤器的种类：列植过滤器—SingleColumnValueFilter 过滤列植的相等、不等、范围等列名前缀过滤器—ColumnPrefixFilter 过滤指定前缀的列名多个列名前缀过滤器—MultipleColumnPrefixFilter 过滤多个指定前缀的列名 rowKey过滤器—RowFilter 通过正则，过滤rowKey值。 12.13.3.列植过滤器—SingleColumnValueFilter SingleColumnValueFilter 列值判断相等 (CompareOp.EQUAL ), 不等(CompareOp.NOT_EQUAL), 范围 (e.g., CompareOp.GREATER)………… 下面示例检查列值和字符串'values' 相等... SingleColumnValueFilter f = new SingleColumnValueFilter( Bytes.toBytes("cFamily") Bytes.toBytes("column"), CompareFilter.CompareOp.EQUAL, Bytes.toBytes("values")); s1.setFilter(f); 注意：如果过滤器过滤的列在数据表中有的行中不存在，那么这个过滤器对此行无法过滤。 12.13.4.列名前缀过滤器—ColumnPrefixFilter 过滤器—ColumnPrefixFilter ColumnPrefixFilter 用于指定列名前缀值相等 ColumnPrefixFilter f = new ColumnPrefixFilter(Bytes.toBytes("values")); s1.setFilter(f); 12.13.5.多个列值前缀过滤器—MultipleColumnPrefixFilter MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多，但可以指定多个前缀 byte[][] prefixes = new byte[][] {Bytes.toBytes("value1"),Bytes.toBytes("value2")}; Filter f = new MultipleColumnPrefixFilter(prefixes); s1.setFilter(f); 12.13.6.rowKey过滤器—RowFilter RowFilter 是rowkey过滤器通常根据rowkey来指定范围时，使用scan扫描器的StartRow和StopRow方法比较好。 Filter f = new RowFilter(CompareFilter.CompareOp.EQUAL, new RegexStringComparator("^1234")); //匹配以1234开头的rowkey s1.setFilter(f);

13.hbase原理：

13.1.1.写流程 1、client向hregionserver发送写请求。 2、hregionserver将数据写到hlog（write ahead log）。为了数据的持久化和恢复。 3、hregionserver将数据写到内存（memstore） 4、反馈client写成功。13.1.2.数据flush过程 1、当memstore数据达到阈值（默认是64M），将数据刷到硬盘，将内存中的数据删除，同时删除Hlog中的历史数据。 2、并将数据存储到hdfs中。 3、在hlog中做标记点。13.1.3.数据合并过程 1、当数据块达到4块，hmaster将数据块加载到本地，进行合并 2、当合并的数据超过256M，进行拆分，将拆分后的region分配给不同的hregionserver管理 3、当hregionser宕机后，将hregionserver上的hlog拆分，然后分配给不同的hregionserver加载，修改.META. 4、注意：hlog会同步到hdfs13.1.4.hbase的读流程 1、通过zookeeper和-ROOT- .META.表定位hregionserver。 2、数据从内存和硬盘合并后返回给client 3、数据块会缓存13.1.5.hmaster的职责 1、管理用户对Table的增、删、改、查操作； 2、记录region在哪台Hregion server上 3、在Region Split后，负责新Region的分配； 4、新机器加入时，管理HRegion Server的负载均衡，调整Region分布 5、在HRegion Server宕机后，负责失效HRegion Server 上的Regions迁移。13.1.6.hregionserver的职责 HRegion Server主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBASE中最核心的模块。 HRegion Server管理了很多table的分区，也就是region。13.1.7.client职责 Client HBASE Client使用HBASE的RPC机制与HMaster和RegionServer进行通信管理类操作：Client与HMaster进行RPC；数据读写类操作：Client与HRegionServer进行RPC。

14.MapReduce操作Hbase：

14.1.实现方法Hbase对MapReduce提供支持，它实现了TableMapper类和TableReducer类，我们只需要继承这两个类即可。1、写个mapper继承TableMapper 参数：Text：mapper的输出key类型； IntWritable：mapper的输出value类型。其中的map方法如下： map(ImmutableBytesWritable key, Result value,Context context) 参数：key：rowKey；value： Result ，一行数据； context上下文2、写个reduce继承TableReducer 参数：Text:reducer的输入key； IntWritable：reduce的输入value； ImmutableBytesWritable：reduce输出到hbase中的rowKey类型。其中的reduce方法如下： reduce(Text key, Iterable values,Context context) 参数： key：reduce的输入key；values：reduce的输入value；

待续......

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

757 2023-04-06

一脸懵逼学习HBase---基于HDFS实现的。（Hadoop的数据库，分布式的，大数据量的，随机的，实时的，非关系型数据库）

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20