No.8 - 时序数据库随笔 - InfluxDB 多条时序数据联合分析-PingCAP

No.8 - 时序数据库随笔 - InfluxDB 多条时序数据联合分析

网友投稿 1271 2023-06-09

No.8 - 时序数据库随笔 - InfluxDB 多条时序数据联合分析

01 问题

正文本篇我们要解决 No6，No7提到的网友问题，如下：

简单说就是如何处理两条时间线的数值计算？上面例子是一个 “+” 加法。

02 数据准备

我们首先利用InfluxDB解决上述问题，首先进行数据准备，建立一个测试的bucket，建立之前先检查一下现有的bucket。

启动InfluxDB实例，如下：

启动之后，我们查看一下现有的bucket，如下：

influxdb git:(master) bin/$(uname -s | tr '[:upper:]' '[:lower:]')/influx bucket list ID Name Retention Shard group duration Organization ID98e86f05543f5866 _monitoring 168h0m0s 24h0m0s 56b35f89025991c8b9b9609ae3e08b97 _tasks 72h0m0s 24h0m0s 56b35f89025991c8

创建名为iot的bucket，如下命令：

执行成功之后会显示如下：

我们用命令查看一下：

➜ influxdb git:(master) bin/$(uname -s | tr '[:upper:]' '[:lower:]')/influx bucket listID Name Retention Shard group duration Organization IDc05283f56bf9cead 2021iotdb 1h0m0s 1h0m0s 0b1ad4c0cd4db9cae70f5bb2fdaa5dd2 _monitoring 168h0m0s 24h0m0s 0b1ad4c0cd4db9ca56241b01789c1a1b _tasks 72h0m0s 24h0m0s 0b1ad4c0cd4db9ca

插入两条时间线数据，如下：

➜ influxdb git:(master) bin/$(uname -s | tr '[:upper:]' '[:lower:]')/influx write --bucket 2021iotdb --precision s "m1 vm=3333 $(date +%s)"➜ influxdb git:(master) bin/$(uname -s | tr '[:upper:]' '[:lower:]')/influx write --bucket 2021iotdb --precision s "m2 vn=4444 $(date +%s)"

我们插入两条时间线数据，m1的vm=3333，m2的vn=4444，我们的需求是vm + vn。

03 JOIN查询

我们看一下JOIN的功能定义：

语法：join(tables: {key1: table1, key2: table2}, on: ["_time", "_field"], method: "inner")

这个和我们标准数据库的JOIN语义基本一致，我们先查看一下用于测试的数据，我们既可以用influxCLI，如下：

我们发现数据已经插入成功。也可以用fluxCLI，InlfuxDB社区更推进用flux，我们打开一个flux repl。细节可以查阅前面一篇No6。我用IDE打开如下：

> from(bucket:"2021iotdb") |> range(start:-1h)Result: _resultError: unauthorized access

如图，我们在IDE里面执行查询时候，提示我们需要token，那么influx query为啥不需要呢，IDE没有默认去读取配置文件，我们可以配置环境变量也可以直接添加token，查询语句如下：

> from(bucket:"2021iotdb", org:"org", token:"iot_test_token") |> range(start:-1h)Result: _resultTable: keys: [_start, _stop, _field, _measurement] _start:time _stop:time _field:string _measurement:string _time:time _value:float ------------------------------ ------------------------------ ---------------------- ---------------------- ------------------------------ ---------------------------- 2021-04-06T05:36:50.079542000Z 2021-04-06T06:36:50.079542000Z vm m1 2021-04-06T06:23:16.000000000Z 3333 Table: keys: [_start, _stop, _field, _measurement] _start:time _stop:time _field:string _measurement:string _time:time _value:float ------------------------------ ------------------------------ ---------------------- ---------------------- ------------------------------ ---------------------------- 2021-04-06T05:36:50.079542000Z 2021-04-06T06:36:50.079542000Z

好的，一切都还算顺利，我们看看如果计算 vm + vn呢？如果我们把 m1和m2两个时间序列看成是两个流（表），那么我们要进行两个表的操作，第一想到的应该是两个表进行JOIN将两个表的数据合并成一个宽表，然后在进行列求值，如下：

tab1 = from(bucket:"2021iotdb", org:"org", token:"iot_test_token") |> range(start:-1h) |> filter(fn:(r) => r._measurement == "m1")tab2 = from(bucket:"2021iotdb", org:"org", token:"iot_test_token") |> range(start:-1h) |> filter(fn:(r) => r._measurement == "m2")

得到两个表之后我们在进行JOIN操作，查询语句如下：

join(tables: {m1:tab1, m2:tab2}, on: ["_time"]) |> map(fn:(r) => ({_time: r._time, _value: r._value_m1 + r._value_m2}))

上面的on表示JOIN的条件，但是我们发现，tab1和tab2中时间字段并不相同，如下：

所以我们需要再快速的插入两条数据，使得时间字段相同，我们才能拿到结果，插入之后数据如下：

这样我们再进行查询：

join(tables: {m1:tab1, m2:tab2}, on: ["_time"]) |> map(fn:(r) => ({_time: r._time, _value: r._value_m1 + r._value_m2}))

如上我们完成了查询需求。哈哈，那是不是在InfluxDB里面进行这类查询都是用JOIN的方式吗？是否有更简单的方式？看下面部分：）

03 PIOVT查询

我们看一下PIVOT的功能定义：

The pivot() function collects values stored ***lly (column-wise) in a table and aligns them horizontally (row-wise) into logical sets.

语法：pivot(rowKey:["_time"], columnKey: ["_field"], valueColumn: "_value")

其实在标准数据库里面也有PIVOT，在InfluxDB里面pivot可以将行转换为列，进而将两个时序数据值变成一个Table中的两个列，这个内置也可以为用户进行内部优化处理。我们看看如何操作：

> from(bucket:"2021iotdb", org:"org", token:"iot_test_token") |> range(start:-1h) |> pivot(rowKey:["_time"], columnKey: ["_measurement","_field"],valueColumn: "_value")

如上语句执行结果如下：

我们发现m1的vm和m2的vn都变成一个表的某一列了，这样pivot就完美的将两个时序数据合并成宽表的列了。我们再加上具体的过滤条件，如下：

接下来我们再进行计算，如下：

from(bucket:"2021iotdb", org:"org", token:"iot_test_token") |> range(start:-1h) |> filter(fn:(r) => r._measurement == "m1" or r._measurement == "m2")|> pivot(rowKey:["_time"], columnKey: ["_measurement","_field"],valueColumn: "_value")|> map(fn:(r) => ({_time: r._time, _value:r.m1_vm + r.m2_vn}))

OK, 大家是不是赶紧PIVOT非常方便？：）

04 问题

最后，留个问题给大家，大家知道标准数据库里面PIVOT和UNPIVOT的使用场景吗？或者Flink&Spark如何支持PIVOT？或者知道Apache IoTDB里面如何处理多条时序数据分析梳理吗？我们下一篇见。

作者介绍

孙金城，51CTO社区编辑，Apache Flink PMC 成员，Apache Beam Committer，Apache IoTDB PMC 成员，ALC Beijing 成员，Apache ShenYu 导师，Apache 软件基金会成员。关注技术领域流计算和时序数据存储。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1271 2023-06-09

No.8 - 时序数据库随笔 - InfluxDB 多条时序数据联合分析

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

No.8 - 时序数据库随笔 - InfluxDB 多条时序数据联合分析

微信扫一扫：分享

推荐文章

友情链接

热评文章