分布式数据库常用算子介绍-PingCAP

网友投稿 976 2023-04-07

分布式数据库常用算子介绍

SQL查询的执行过程，就像工厂的加工流水线，层层递进，最终得到想要的结果，而SQL算子就好比其中的一道道工序。本篇简要介绍一下SQL执行计划中，一些常见算子的含义和逻辑。

• indexscan 索引扫描当数据表中创建了索引，并使用索引字段进行查询时，会进行索引扫描。

• tablescan 顺序表扫描tablescan 负责从磁盘中以连续块的形式从磁盘中读取数据页。一般在SQL查询中，有几张表就要有几个 tablescan 操作。在分布式数据库中，同一张表的扫描，还会被分配到多个结点使用分布式的方式执行。

• project 投影投影操作，是从表中根据查询字段选择相关的列。select cc_name, cc_classfrom call_centerwhere cc_class = ‘large’limit 10;在这个查询中，tablescan 操作会将 call_center 表的数据做全字段读取，project 操作负责筛选出 cc_name, cc_class 这两个列。

• filter 过滤filter 会根据 where 条件中的筛选条件，筛选出符合的记录。其中过滤条件也叫谓词逻辑。在两表连接时，谓词逻辑可以在 join 前执行，也可以在 join 后执行。因为 join 操作是做笛卡尔积，如果在 join 后执行谓词逻辑，将大大增加计算的基数，所以一般的数据库优化执行器都会将谓词下推，让谓词逻辑在join操作前完成。上述的 project 和 filter 算子可以在数据表的列和行两个维度对数据进行限定，大大缩小处理的数据量，降低资源消耗，是SQL优化时常用的方法。

• exchange在分布式数据库中，tablescan 等操作是分布式进行的，而各个分支结点将结果汇总的过程就是 exchange 操作。exchange 操作还可以细分为 LocalExchange 和 RemoteExchange。LocalExchange 即本地数据结果汇总，没有网络IO;而RemoteExchange是数据从不同的数据结点汇总到某一结点，需要网络传输。

• join 连接连接的本质是两个表做笛卡尔积操作。select ctr_total_returnfrom customer_total_return_t1 ctr1where ctr1.ctr_total_return >(select avg(ctr_total_return)from customer_total_return_t2 ctr2where ctr1.ctr_store_sk = ctr2.ctr_store_sk);在这个SQl中，先会对表 customer_total_return_t2 进行读取，并以 ctr_store_sk 为 key ，统计 avg(ctr_total_return) 然后 customer_total_return_t1 和 customer_total_return_t2 会做笛卡尔积，再进行条件过滤。

• aggregation 聚合对数据做分组聚合，统计分析。一般会先在每个结点先做一次分组统计，exchange 数据汇合之后再做一次合并统计。select avg(ctr_total_return)from customer_total_return_testwhere ctr_store_sk = 10;上面这个查询中只有一张表，由于是分布式执行，表虽然只扫描一次，但是会在多个数据结点进行扫描，所以 avg 函数会在每个结点先执行一次，exchange 汇总完后，会再进行一次avg操作。

• valuesselect 1 + 1, DATE ‘2001-08-22’, ARRAY[1, 2, 3] ;有时SQL中数据不是从表中查询出来的，而是给定的一个数字、字符或数组，这时 values 操作会将这些标识符转化成具体的数值。

• scalar 标量根据策略，给定一个结果值。selectcase when (select count(*)from store_saleswhere ss_quantity between 81 and 100) > 18213then 1else 2 end bucket5from reasonwhere r_reason_sk = 1;如case when 中根据判断条件计算结果时会使用。

• markDistinctselect avg(ss_sales_price) B1_LP,count(distinct ss_list_price) B1_CNTDfrom store_sales;distinct操作时，对数据的类别进行标识。

• window 窗口窗口函数是应用于窗口和分区的函数，可分为三类：排名函数，分析函数和聚合函数。select cs_call_center_sk,sum(cs_ext_sales_price) over(partition by cs_sold_date_sk) as revenueratiofrom catalog_sales limit 100;窗口函数计算时，会根据 partition by 后的字段进行分区，然后进行统计分析或排名。

• sort 排序select ss.ca_county, ss.d_yearfrom ss, scwhere ss.ca_county = sc.ca_countyorder by ss.d_year;排序操作。

• topn即 limit 操作，获取限定的记录条数。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

976 2023-04-07

分布式数据库常用算子介绍

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20