Oracle到TiDB迁移生僻字乱码问题解决方案

网友投稿 627 2024-02-23

背景

某去O场景业务上线测试，再执行某张表缩字段时报错。

***到TiDB迁移生僻字乱码问题解决方案

现象

执行缩字段语句

ALTER TABLE schemaname.tablename MODIFY COLUMN licenseno varchar(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NULL COMMENT 发动机号；

报错信息

"incorrect string value \xED for column ‘licenseno’"

数据库版本

推测原因

TiDB报错"incorrect string value \xED for column ‘licenseno’"，一般来说此类报错出现在插入语句阶段，用户在插入与字符集集不匹配的非法字符时报错。而题主本次进行进行的缩字段语句，其原理操作步骤大致分为：将相关表数据由 KV 全部 LOAD 到 TIDB 内存中，在内存中进行修改数据，将修改完的数据进行合规性校验，检验完成后回填到 KV 中。

所以推测是在数据回填进行合法性校验时出现了错误。

查看数据库字符集

character_set_client utf8mb4 character_set_connection utf8mb4 character_set_database utf8mb4 character_set_filesystem binary character_set_results character_set_server utf8mb4 character_set_system utf8 character_sets_dir /usr/local/mysql-5.6.25-osx10.8-x86_64/share/charsets/

查询原表中是否含有非法字符

select _tidb_rowid, convert(a using utf8mb4) from table where convert(a using utf8mb4) != a;

此时怀疑是不是 TiDB 对于一些生僻词不识别或者转储有错误。于是进行人工校验

结果插入正常，怀疑错误。

此时回想数据来源，此数据是从 ORACLE 库中，通过 sqluldr2 导出成 CSV 文件，在通过 lighting 导入到 TiDB。合理怀疑链路过程某一环节有问题。单没有方向，只能从源头开始调查。

ORACLE端

查询数据正常，但对于生僻字来说肉眼看不一定准确，固将所见字转换为16进制。

ORACLE 16进制为 Typ=1 Len=10 CharacterSet=AL32UTF8: f0,a4,be,82,46,44,37,4d,36,38

TIDB 16进制为 EDA193EDBE824644374D3638

明显看到两边存储码不相同。

继续排查，sqluldr2 导出文件，建立一张测试表，仅插入所需数据，使用工具导出。然后通过VIM 命令 ":%!xxd" 查看字段16进制。明显看到此时转码已经出现问题，并不符合ORACLE存储的“f0,a4,be,82,46,44,37,4d,36,38”，而是转换成了“EDA193EDBE824644374D3638”。

另外存在疑问，导入时为何不进行数据合法性校验。咨询相关人员得到如下建议：使用lighting导入时,若原csv文件为utf8或binary编码，则lighting导入时不进行任何设置。导入模式为 kv 时的方法，不存在问题。若导入时csv文件为其他编码格式，且未使用 data-character-set 参数时，则 lighting 会默认 csv 文件是二进制编码且直接使用 utf8 格式，此时转码可能会存在未知问题。

结语

使用三方工具还是存在一些风险，不过目前此方案确实迁移速度较快（相比较于 KTL 工具）。另外听PingCap 正在推出自己的异构迁移工具，我司也正在进行内部测试，总体来说其速度相对于 kettle 还是比较快，但仍赶不上 sqluldr2 导出 lighting 的速度，且目前还存在一些问题，待我方测试完成后，各位如有兴趣，我会献上测评。

标签：TiDB 数据库

Oracle到TiDB迁移生僻字乱码问题解决方案

背景

现象

执行缩字段语句

报错信息

数据库版本

推测原因

结语

黄东旭解析 TiDB 的核心优势

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

Oracle到TiDB迁移 生僻字乱码问题解决方案

背景

现象

执行缩字段语句

报错信息

数据库版本

推测原因

结语

微信扫一扫：分享

推荐文章

友情链接

热评文章

Oracle到TiDB迁移生僻字乱码问题解决方案