关于 HiveSQL 常见的 Left Join 误区，你知道吗-PingCAP

关于 HiveSQL 常见的 Left Join 误区，你知道吗

网友投稿 1560 2023-06-13

关于 HiveSQL 常见的 Left Join 误区，你知道吗

写在前面

很多时候，由于SQL逻辑复杂，加之对SQL执行逻辑理解不透彻，很容易产生一些莫名其妙的结果，这些结果看似不符合预期，殊不知这就是真实结果。本文整理了几个常见的SQL问题，我们在实际书写SQL脚本时，需要多加注意，希望本文对你有所帮助。

关于LEFT JOIN

外连接是我们书写SQL时经常使用的多表连接方式，使用起来也是十分的简单。值得注意的是，越是简单的东西，越是容易被忽略细节。通常我们都是这样理解LEFT JOIN的：

语义是满足Join on条件的直接返回，但不满足情况下，需要返回Left Outer Join的left 表所有列，同时右表的列全部填null

上述对于LEFT JOIN的理解是没有任何问题的，但是里面有一个误区：谓词下推。具体看下面的实例：

假设有如下的三张表：

--建表create table t1(id int, value int) partitioned by (ds string);create table t2(id int, value int) partitioned by (ds string);create table t3(c1 int, c2 int, c3 int);--数据装载，t1表insert overwrite table t1 partition(ds='20220120') select '1','2022';insert overwrite table t1 partition(ds='20220121') select '2','2022';insert overwrite table t1 partition(ds='20220122') select '2','2022';--数据装载，t2表insert overwrite table t2 partition(ds='20220120') select '1','120';

当我们执行如下的SQL查询时，会返回什么数据呢?

SELECT *FROM t1LEFT JOIN t2ON t1.id = t2.idAND t1.ds = '20220120';

结果1：

1 2022 20220120 1 120 20220120

结果2：

1 2022 20220120 1 120 202201202 2022 20220121 NULL NULL NULL1 2022 20220122 NULL NULL NULL

相信对于很多初学者，甚至是一个有开发经验的人来说，会认为结果1是正确的返回结果。其实结果1的并不是正确的结果，真正的返回值是结果2.

是不是跟预期的结果不一致呢?很多初学者会认为上述查询SQL中AND t1.ds = '20220120'会进行谓词下推，从而得到结果2。其实，SQL本身的语义不是这样的，如果需要获取结果1的数据，正确的查询方式是下面这样：

--方式1:SELECT *FROM t1LEFT OUTER JOIN t2ON t1.id = t2.idWHERE t1.ds = '20220120';--方式2:SELECT *FROM ( SELECT * FROM t1 WHERE ds = '20220120' ) t1LEFT OUTER JOIN t2ON t1.id = t2.id;

细心的你看出差异了吗?重点是在WHERE t1.ds = '20220120'过滤条件上，最上面的查询方式是ON t1.ds = '20220120'，所以按照LEFT JOIN的语义，如果没有过滤条件，那么左表的数据应该全部返回，右表匹配不上则补null。

执行计划

我们先来看看没有谓词下推的查询SQL的执行计划

正常LEFT JOIN

查看执行计划

EXPLAINSELECT *FROM t1LEFT JOIN t2ON t1.id = t2.idAND t1.ds = '20220120';

执行计划结果

从上面的执行计划可以看出：总共有3个stage，

STAGE DEPENDENCIES: Stage-4 is a root stage Stage-3 depends on stages: Stage-4 Stage-0 depends on stages: Stage-3

其中stage4是map任务读取t2表，将t2表加载成HashTable，用于map端join。t2表数据量为1行。

Select Operator expressions: id (type: int), value (type: int), ds (type: string) outputColumnNames: _col0, _col1, _col2 Statistics: Num rows: 1 Data size: 5 Basic stats: COMPLETE Column stats: NONE HashTable Sink Operator

stage3是map任务读取t1表数据并执行map端join。t1表数量为3行，可见并没有进行过滤操作。

Map Operator Tree: TableScan alias: t1 Statistics: Num rows: 3 Data size: 18 Basic stats: COMPLETE Column stats: NONE Select Operator expressions: id (type: int), value (type: int), ds (type: string) outputColumnNames: _col0, _col1, _col2 Statistics: Num rows: 3 Data size: 18 Basic stats: COMPLETE Column stats: NONE

Stage-0进行结果输出，最终并未执行过滤操作。

Stage: Stage-0 Fetch Operator limit: -1 Processor Tree: ListSink

谓词下推的LEFT JOIN

查看执行计划

EXPLAINSELECT *FROM t1LEFT OUTER JOIN t2ON t1.id = t2.idWHERE t1.ds = '20220120';

执行计划结果

从上面的执行计划可以看出：总共有3个stage，

STAGE DEPENDENCIES: Stage-4 is a root stage Stage-3 depends on stages: Stage-4 Stage-0 depends on stages: Stage-3

其中stage4是map任务读取t2表，将t2表加载成HashTable，用于map端join。t2表数据量为1行。

TableScan alias: t2 Statistics: Num rows: 1 Data size: 5 Basic stats: COMPLETE Column stats: NONE Select Operator expressions: id (type: int), value (type: int), ds (type: string) outputColumnNames: _col0, _col1, _col2 Statistics: Num rows: 1 Data size: 5 Basic stats: COMPLETE Column stats: NONE HashTable Sink Operator

stage3是map任务读取t1表数据并执行map端join。t1表数量为1行，执行了过滤操作。

TableScan alias: t1 Statistics: Num rows: 1 Data size: 6 Basic stats: COMPLETE Column stats: NONE Select Operator expressions: id (type: int), value (type: int) outputColumnNames: _col0, _col1 Statistics: Num rows: 1 Data size: 6 Basic stats: COMPLETE Column stats: NONE Map Join Operator condition map: Left Outer Join0 to 1 keys: 0 _col0 (type: int) 1 _col0 (type: int) outputColumnNames: _col0, _col1, _col3, _col4, _col5 Statistics: Num rows: 1 Data size: 6 Basic stats: COMPLETE Column stats: NONE

Stage-0进行结果输出，最终并未执行过操作。

Stage: Stage-0 Fetch Operator limit: -1 Processor Tree: ListSink

总结本文主要结合具体的使用示例，对HiveSQL的LEFT JOIN操作进行了详细解释。主要包括两种比较常见的LEFT JOIN方式，一种是正常的LEFT JOIN，也就是只包含ON条件，这种情况没有过滤操作，即左表的数据会全部返回。另一种方式是有谓词下推，即关联的时候使用了WHERE条件，这个时候会会对数据进行过滤。所以在写SQL的时候，尤其需要注意这些细节问题，以免出现意想不到的错误结果。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1560 2023-06-13

关于 HiveSQL 常见的 Left Join 误区，你知道吗

黄东旭解析 TiDB 的核心优势

黄东旭关于基础软件产品价值的思考

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20