码迷,mamicode.com
首页 > 其他好文 > 详细

再次遇到golang乱码问题,用simplifiedchinese解决

时间:2020-01-22 16:29:36      阅读:108      评论:0      收藏:0      [点我收藏+]

标签:text   网页   应该   乱码问题   sim   lang   dal   指定   增加   

上篇文章中,抓取网页时,本想匹配其中的汉字。由于出现乱码,只好匹配英文绕过了问题。

原因很简单:该网页没指定utf8,默认应该是GBK

解决办法也很简单:引入

"golang.org/x/text/encoding/simplifiedchinese"

比如原来的代码是

resp, err := this.cleint.Get(url)
body, err := ioutil.ReadAll(resp.Body)

此时body中读取到的是乱码。

只需增加一个reader

resp, err := this.cleint.Get(url)
reader := simplifiedchinese.GB18030.NewDecoder().Reader(resp.Body)
body, err := ioutil.ReadAll(reader)

此时,body中就是正确解码后的汉字。可以进行查找或正则匹配了。



再次遇到golang乱码问题,用simplifiedchinese解决

标签:text   网页   应该   乱码问题   sim   lang   dal   指定   增加   

原文地址:https://www.cnblogs.com/pu369/p/12228659.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!