麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践
718
2023-07-03
mysql通过INSERT IGNORE INTO插入拼音字符无效如何解决
一、准备工作
准备一份批量导入关键词excel,其中包含2个关键词
1.pokemon
2.pokémon
注意:这2个关键词中一个是普通的e,一个是带音节的é
准备数据库表sql脚本
-- 导入关键词表CREATE TABLE `keyword_lexicon` ( `id` int(10) NOT NULL AUTO_INCREMENT, `keyword` varchar(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL DEFAULT '' COMMENT '搜索关键词', PRIMARY KEY ("id"), UNIQUE KEY "idx_keyword" ("keyword") USING BTREE COMMENT '关键词') ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='导入关键词表';登录后复制
二、场景复现
简单写一个导入接口,代码就不附上了,需要注意的是导入sql用的是INSERT IGNORE INTO的方式,如果表中已经有该关键词了则不会写入表中。(keyword字段设为唯一索引)
导入sql例子如下
INSERT IGNORE INTO keyword_lexicon (`keyword`) VALUES ('pokemon'),('pokémon')登录后复制
调接口完成导入后,查看数据库表,发现只有一条pokemon的数据。
三、解决问题
查看表结构发现,keyword字段的排序规则为
utf8mb4_general_ci
这种排序规则在识别é这种带有音节的字符时,会识别为e,导致2个关键词在通过INSERT IGNORE INTO导入后只会有一条记录,只要将排序规则改为
utf8mb4_bin
然后再重新导入,查看结果可发现2条数据都已经插入表中,问题解决。
总结
utf8mb4_bin是区分大小写的,也区分e和é这类字符的utf8_genera_ci是不区分大小写的,也不区分e和é这类字符
注:utf8_general_cs是区分大小写的,但不区分e和é这类字符
如果需要区分带有音节的字符,又不想要区分大小写,可在sql查询对应字段时用LOWER()函数
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。