怎么用Python读取千万级数据自动写入MySQL数据库-PingCAP

怎么用Python读取千万级数据自动写入MySQL数据库

网友投稿 1131 2023-07-04

怎么用Python读取千万级数据自动写入MySQL数据库

场景一：数据不需要频繁的写入mysql

使用 navicat 工具的导入向导功能。这个软件可以支持多种文件格式，并且可以根据文件的字段自动创建表格或将数据插入到已有的表格中，非常快速和便利。

场景二：数据是增量的，需要自动化并频繁写入mysql

测试数据：csv 格式，大约 1200万行

import pandas as pddata = pd.read_csv('./tianchi_mobile_recommend_train_user.csv')data.shape登录后复制

打印结果：

方式一：python ➕ pymysql 库

安装 pymysql 命令：

pip install pymysql登录后复制

代码实现:

import pymysql# 数据库连接信息conn = pymysql.connect( host='127.0.0.1', user='root', passwd='wangyuqing', db='test01', port = 3306, charset="utf8")# 分块处理big_size = 100000# 分块遍历写入到 mysqlwith pd.read_csv('./tianchi_mobile_recommend_train_user.csv',chunksize=big_size) as reader: for df in reader: datas = [] print('处理：',len(df))# print(df) for i ,j in df.iterrows(): data = (j['user_id'],j['item_id'],j['behavior_type'], j['item_category'],j['time']) datas.append(data) _values = ",".join(['%s', ] * 5) sql = """insert into users(user_id,item_id,behavior_type ,item_category,time) values(%s)""" % _values cursor = conn.cursor() cursor.executemany(sql,datas) conn.commit() # 关闭服务conn.close()cursor.close()print('存入成功！')登录后复制

方式二：pandas ➕ sqlalchemy：pandas需要引入sqlalchemy来支持sql，在sqlalchemy的支持下，它可以实现所有常见数据库类型的查询、更新等操作。

代码实现：

from sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:wangyuqing@localhost:3306/test01')data = pd.read_csv('./tianchi_mobile_recommend_train_user.csv')data.to_sql('user02',engine,chunksize=100000,index=None)print('存入成功！')登录后复制

总结

pymysql 方法用时12分47秒，耗时还是比较长的，代码量大，而 pandas 仅需五行代码就实现了这个需求，只用了4分钟左右。最后补充下，方式一需要提前建表，方式二则不需要。所以推荐大家使用第二种方式，既方便又效率高。如果还觉得速度慢的小伙伴，可以考虑加入多进程、多线程。

最全的三种将数据存入到 MySQL 数据库方法：

直接存，利用 navicat 的导入向导功能Python pymysqlPandas sqlalchemy

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1131 2023-07-04

怎么用Python读取千万级数据自动写入MySQL数据库

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

怎么用Python读取千万级数据自动写入MySQL数据库

微信扫一扫：分享

推荐文章

友情链接

热评文章