首页 > 数据库 > 详细

Python2爬虫获取的数据存储到MySQL中时报错"Incorrect string value: '\\xE6\\x96\\xB0\\xE9\\x97\\xBB' for column 'new' at row 1"的解决办法

时间：2017-11-07 19:57:09 阅读：1901 评论：0 收藏：0 [点我收藏+]

标签：连接数连接 column 理论输入比较汉字 bsp 映射

由于一直使用python3进行编码，在使用Python2时，将爬虫数据连接数据库进行存储时，出现如上的报错，经查资料是数据库编码问题。

如下转自：http://www.cnblogs.com/liuzhixin/p/6274821.html 的博客，在此感谢博主的慷慨分享之情。

错误原因：我们可以看到错误提示中的字符0xF0 0x9F 0x98 0x84 ，这对应UTF-8编码格式中的4字节编码（UTF-8编码规范）。正常的汉字一般不会超过3个字节，为什么为出现4个字节呢？实际上是它对应的是智能手机输入法中的表情。那为什么会报错呢？因为mysql中的utf-8并不是真正意义上的utf-8，它只能存储1~3个字节长度的utf-8编码，如果想存储4个字节的必须用utf8mb4类型。不而要使用utf8mb4类型，首先要保证Mysql版本要不低于 MySQL 5.5.3。

常用字符集

ASCII：美国信息互换标准编码；英语和其他西欧语言；单字节编码，7位表示一个字符，共128字符。
GBK：双字节，汉字内码扩展规范；中日韩汉字、英文、数字；双字节编码；共收录了21003个汉字，GB2312的扩展。
UTF-8：Unicode标准的可变长度字符编码；Unicode标准（统一码），业界统一标准，包括世界上数十种文字的系统；
UTF-8：使用一至三个字节为每个字符编码。
utf8mb4：存储四个字节，应用场景用于存储emoji表情，因为可以emoji表情四个字节。
utf8mb4：MySQL版本 > 5.5.3 。
其他常见字符集：UTF-32，UTF-16，Big5，latin1
数据库中的字符集包含两层含义
- 各种文字和符号的集合，包括各国家文字、标点符号、图形符号、数字等。
- 字符的编码方式，即二进制数据与字符的映射规则。

解决方案：

1）使用utf8mb4数据类型

[client]
default-character-set = utf8mb4

[mysql]
default-character-set = utf8mb4

[mysqld]
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci

将数据库中对应的字段，改为utf8mb4_general_ci

　　# 对每一个数据库:

　　ALTER DATABASE 这里数据库名字 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;
　　# 对每一个表:
　　ALTER TABLE 这里是表名字 CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
　　# 对每一个字段:
　　ALTER TABLE 这里是表名字 CHANGE 字段名字重复字段名字 VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
　　# 上面一句或者使用modify来更改
　　ALTER TABLE 这里是表名字 modify 字段名字 VARCHAR(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci DEFAULT ‘‘;
　　utf8mb4完全向后兼容utf8，无乱码或其他数据丢失的形式出现。理论上是可以放心修改… 还是修改数据库比较方便。

修改项目中的连接数据库的url，将characterEncoding=utf-8去掉，此步骤一定要进行

2）自定义过滤规则，将文本中出现的四字节UTF-8字符过滤或转化为自定义类型。

下面是将4字节字符转化为0000的测试例子。

for (int i = 0; i < b_text.length; i++) {

　　if((b_text[i] & 0xF8)== 0xF0){
　　　　for (int j = 0; j < 4; j++) {
　　　　b_text[i+j]=0x30;
　　}
　　i+=3;
　　}
}

3)改成gbk编码也可以，不过我没试过

查看三种MySQL字符集的方法

一、查看MySQL数据库服务器和数据库MySQL字符集。

mysql> show variables like ‘%char%‘;

二、查看MySQL数据表（table）的MySQL字符集。

mysql> show table status from sqlstudy_db like ‘%countries%‘;

三、查看MySQL数据列（column）的MySQL字符集。

mysql> show full columns from countries;

Python2爬虫获取的数据存储到MySQL中时报错"Incorrect string value: '\\xE6\\x96\\xB0\\xE9\\x97\\xBB' for column 'new' at row 1"的解决办法

标签：连接数连接 column 理论输入比较汉字 bsp 映射

原文地址：http://www.cnblogs.com/fanjp666888/p/7800090.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！