码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy gbk编码解析失败的问题

时间:2017-06-25 18:36:00      阅读:145      评论:0      收藏:0      [点我收藏+]

标签:标准   采集   中文   扩展   html   gb2312   解析   原因   play   

在使用scrpay 采集网易游戏网页时,遇到了编码失败的问题

http://play.163.com/17/0520/15/CKT0U63D00318PFI.html

code_datas = byte.decode(‘gbk‘)  

这里的‘gbk‘编码解析失败,查询原因得知,中文有三大编码,后面的标准是前面标准的扩展。


GB2312 < GBK < GB18030

将命令换成 code_datas = byte.decode(‘GB18030‘)

后解析正常。

scrapy gbk编码解析失败的问题

标签:标准   采集   中文   扩展   html   gb2312   解析   原因   play   

原文地址:http://www.cnblogs.com/dahefuzi/p/7077350.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!