标签:标准 采集 中文 扩展 html gb2312 解析 原因 play
在使用scrpay 采集网易游戏网页时,遇到了编码失败的问题
http://play.163.com/17/0520/15/CKT0U63D00318PFI.html
code_datas = byte.decode(‘gbk‘)
这里的‘gbk‘编码解析失败,查询原因得知,中文有三大编码,后面的标准是前面标准的扩展。
GB2312 < GBK < GB18030
将命令换成 code_datas = byte.decode(‘GB18030‘)
后解析正常。
标签:标准 采集 中文 扩展 html gb2312 解析 原因 play
原文地址:http://www.cnblogs.com/dahefuzi/p/7077350.html