离线/实时数据同步打通数据，离线数仓中数据同步-PingCAP

离线/实时数据同步打通数据，离线数仓中数据同步

4747 1769 2023-06-13

本文讲述了离线/实时数据同步打通数据，离线数仓中数据同步

在业务分析过程中，随着应用需求场景增多，企业需要依据自身业务场景判断选择实时数据还是离线数据。那么，实时数据与离线数据到底有什么不同?他们各自的优势又是什么呢?企业应该怎样选择实时数据或是离线数提区动只业务发展，更好地迈向教字化时代呢?

针对这一问题，科本科技将离线数据同步与实时数据同步进行解读分析，帮助企业更好地理解离线数据同步与实时数据同步优点及其应用情况。

离线数据同步

数据通道为数据平台提供丰富的结构化、半结构化、非结构化数据源之间高速稳定的数据离线同步能力，为业务数据进出平台教据仓库.数据集市提供完整的解决方案，提供丰富多样、简单易用的教据处理功能，为后续的查询、分发、计算和分析提供数据基础，包括教据源管理、数据导入、文件导入、HDFS文件导入、Flume文件采集;数据导出、DB导出、数据推送至集市等功能。

多源、异构数据的离线接入

离线教据同步融合关系型数据库、非关系型教据库、大数据平台、文件系统的离线教据接入能力，支持各类型数据源之间的数据交互，适用于企业内部各数据类型的导入与导出场景。

表同步与库同步

针对库表结构的数据提供两种接入模式，表同步与库同步.

表同步支持常规导入、动态表名导入、多表导入以及分库分表导入，能够支撑企业内部多种数据存储形式的数据接入场景;库同步支持整库同步和批量表同步，适用于多表导入的应用场景。

数据读取

系统提供各类型数据源的数据读取配置，针对关系型数据库和非关系型数据库可选择数据速取的宁段，支持界面可视化设置教据转换团数，并支持增量读取数据;针对大数据平台和文件系统可选择数据读取区域，支持动态文件读取。

产品优势

支持库表到库表、库表到文件、文件到库表等多种数据接入场景，能够满足企业内部各种数据导入或导出需求

提供任务异常处理机制，任务失败后可自动重启，支持断点续传、异常恢复，保证数据的完整性。

实时数据同步

Keen Dsync是数据中台实时数据同步交换中心，是一站式、智能化、多源数据同步产品，用于企业异构多源数据融合，解决企业内关系型数据库、非关系型数据库、大数据平台、文件系统等复杂异构数据源之间、大数据量高并发下的数据交互和数据同步问题，是企业实现数据统一共享和分发的利器。

多源、异构数据的实时同步

支持同构和异构数据源等任意数据源之间的数据交互和数据同步，支持关系型数据库、非关系型数据库、大数据平台、文件系统，可解决企业内部多源异构数据融合的复杂场景。

数据清洗

支持在数据同步前设置清洗规则，对无效、空值、重复数据、残缺数据、异常数据等脏数据进行清洗和转换，满足基本的数据清洗要求。

统一数据共享和分发

支持一对多数据共享和分发，不对源系统产生影响，支持多类型数据源集成，打破数据孤岛，实现数据统一管理.

实时数据同步产品架构图

产品能力

支持全量和增量同步

开启repeatable read事务保证数据可以读到，然后进行iush table with read ock 操作，添加一个读锁，防止这个时候有新的数据进入影响数的读取，这时开始一个truncation wth snapshot，我们可以记录当前binog的offset 并标个snapshot stat，这时的offset 为增量读取时开始的ofset，当事务开始后可以进行全量数据的读取。record marker这时会将生成record 写到 kaika 中，然后commit 这个事务，当全量数据push完毕后解除读锁并且标记snapshot stop，此时全量数据已经都进入kaka了，之后从之前记录的ofiset开始增量数据的同步。

无Agent，不会对数据源端造成压力

业务上经常会存在大数据量多个任务同步，这时就很难平衡数据传输对源端的压力和目的端的实时性，Keen Dsync 做了大量相关测试来优化不同的连接池，支持整库同步、目的端字段建表、无主键同步、开放数据传输效率的自定义化，供客户针对自己的业务系统定制合适的传输任务，对于不同种类的数据库的传输进行优化和调整，保证数据传输的高效性

故障自动恢复

任务recover时，获取目标文件在hdfs 上的租约，获取到租约后就可以开始读之前写入时候的log，如是第一次会创建一个新的log，并标己一bedin，记录当时的kaika ofset，然后清理之前遗留下来的临时数据，清理掉之后再重新开始同步直到同步结束会标记一个end。如果没有结束的活就相当千正在进行中，正在进行中每次都会提交当前同步的ofset，来保还出现章外后会滚到之前ofset，如果要需要适写的HDFS当前文件是被占用的，需要等待直到可以获取到租约。

断点续传

数据同步分为全量同步和增量同步，全量同步实际是一个批处理。在批处理时，都是进行的处理al or nothing[要么全部同步成功，要么全部同步失败]，而实际应用中，大数据量同步一个批量会占用相当长的时间，时间越长可靠性就越准保障，往往会出现断掉的情况，断后需要重新处理会让很多人崩溃，keen Dsync[实时数据步系统]通过管理数据传输时的position 来做到断点续传，即使一个大规模的数据任务发生了意外，可以继续从断掉的点来继续之前的任务，大大缩短了同步的时间，提高了同步的效率。

保障端到端数据的一致性

keen Dsync 是通过将同步数据写入到数据库之前先写临时文件，当一个批次结束后，再将这人临时文件重命名到正式文件[正式的文心名会包含kafka ofiset]，确保每次提交后的正式文件一致性，如果中途出现写入错误，会回滚一下当前任务，将临时文件删除重新写

灵活&易用性

1) 可视化创建同步任务

2) 支持一个来源端多个目标端的任务同步和单独管理:

3) 支持目标端自动建表:

4)支持整库同步、单表同步:

5) 支持主键自动检测、目标端自定义主键、添加自定义列、描述:

一、数据同步策略

1业务数据是数据仓库只的重要数据来源，我们需要每日定时从业务数据库中抽取数据，传输到数据仓库中，之后再对数据进行分析统计。为保证统计结果的正确性，需要保证数据仓库中的数据与业务数据库是同步的，离线数合的计算周期通常为天，所以数据同步周期也诵常为天，即每天同步一次即可。

数据的同步策略有全量同步和增量同步[全量同步] 就是每天都将业务数据库中的全部数据同步一份到数据仓库，这是保证两侧数据同步的最简单的方式。[增量同步] 就是每天只将业务数据中的新增及变化数据同步到数据仓库。采用每日增量同步的表，通常需要在首日先进行一次全量同步

2.数据同步策略选择

[结论]

若业务表数据量比较大，且每天数据变化的比例比较低，这时应采用增量同步，否则可采用全量同步.举例说明各表的同步策略

3.数据同步同居概述

数据同步工具种类繁多，大致可分为两类:

(1)一类是以Datax、Sqoop为代表的基于Select查询的离线、批量同步工具;(2)另一类是以Maxwel、Cana为代表的基于数据库数据变更日志(例如MySQL的binlog，其会实时记录所有的inset、update以及delete操作)的实时流式同步工具。

全量同步通常使用Datax、Sqoop等基于查询的离线同步工具。而增量同步既可以使用Datax、Sqoop等工具，也可使用Maxwel、Canal等工具，下面对增量同步不同方案进行简要对比。

上文就是小编为大家整理的离线/实时数据同步打通数据，离线数仓中数据同步。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1769 2023-06-13

离线/实时数据同步打通数据，离线数仓中数据同步

黄东旭解析 TiDB 的核心优势

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20