KSQL，用于Apache Kafka的流数据SQL引擎-PingCAP

KSQL，用于Apache Kafka的流数据SQL引擎

网友投稿 963 2023-05-03

KSQL，用于Apache Kafka的流数据SQL引擎

Apache Kafka是一个分布式的、分区的、多复本的日志提交服务，使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。Kafka最初是由LinkedIn开发，并于2011年初开源，目标是为实时数据处理提供一个统一、高通量、低等待的平台。目前，越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。

Kafka拓扑结构

Kafka的设计可以帮助用户解决很多架构上的问题，其具备的高性能、低耦合、高可靠性、数据不丢失等特性，结合实际的应用系统使用场景，能够非常满足用户的需求。

KSQL的两个核心概念是流(Stream)和表(Table)，集成流和表，允许将代表当前状态的表与代表当前发生事件的流连接在一起。

KSQL项目架构

事实上，KSQL与关系型数据库中的SQL还是有很大不同的。传统的SQL都是即时的一次性操作，不管是查询还是更新都是在当前的数据集上进行。KSQL的查询和更新是持续进行的，而且数据集可以源源不断地增加。简言之，KSQL所做的其实是转换操作，也就是流式处理。

虽然项目基于Apache 2.0协议开源，但目前还处于开发者预览阶段，不建议用于生产集群中。在可预料的条件下，KSQL在实时监控、安全检测、在线数据集成、应用开发等场景拥有极大的潜力。

实时监控：通过KSQL自定义业务层面的度量指标，可以实时获得。底层的度量指标无法告诉用户应用程序的实际行为，所以基于应用程序生成的原始事件来自定义度量指标可以更好地了解应用程序的运行状况。另外，可以通过KSQL为应用程序定义某种标准，用于检查应用程序在生产环境中的行为是否达到预期;

安全检测：KSQL把事件流转换成包含数值的时间序列数据，通过可视化工具把这些数据展示在UI上，可以检测到很多威胁安全的行为，比如欺诈、入侵等等;

在线数据集成：大部分的数据处理都会经历ETL过程，而这样的系统通常都是通过定时的批次作业来完成数据处理的，但批次作业所带来的延时在很多时候是无法被接受的。通过使用KSQL和Kafka连接器，可以将批次数据集成转变成在线数据集成;

应用开发：对于复杂应用来说，使用Kafka的原生Streams API或许更合适。不过对于简单应用，或者对于不喜欢Java编程的人来说，KSQL会是更好的选择。

未来，项目计划增加更多的特性，包括支持更丰富的SQL语法，让KSQL成为生产就绪的系统。相信KSQL为处理Kafka数据而提供的简单完整的可交互式SQL接口，能够降低流式处理的门槛。

资源池化多租户与数据库整合的解决方案

963 2023-05-03

KSQL，用于Apache Kafka的流数据SQL引擎

资源池化多租户与数据库整合的解决方案

深度剖析 TiCDC 源码之 TiKV CDC 模块

构建 TiDB 助手：使用 Coze 实现高效管理

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20