首页 > 其他好文 > 详细

写爬虫时碰到过乱码吗？乱码了怎么办？超长篇教学解决方法给你！

时间：2018-05-12 17:29:27 阅读：219 评论：0 收藏：0 [点我收藏+]

标签：分享图片 char 文章使用 charset 教学分类实战这就是我

---恢复内容开始---

技术分享图片

技术分享图片

技术分享图片

百度风云榜一共有50个关键词，我们先任选其中一个打开看看。

从零基础到项目实战视频群：125240963

技术分享图片

一、实验目的

我们的目的是通过百度风云榜，获取相关关键词的新闻内容。（后面会有一篇文章会讲到用咱们今天获取的数据做文本聚类）

技术分享图片

技术分享图片

技术分享图片

运行，结果keyword全部为乱码，没有一点中文的痕迹。

技术分享图片

这就是我们今天要克服的问题-html编码问题。

遇到这种问题问题，我们可能会先在html标签中查找charset字符集。一般charset值有utf-8、gbk、gb2312、ascii等。

技术分享图片

技术分享图片

再次运行,汉字正常显示。

技术分享图片

2.2 定位搜索页面新闻链接

上面我们获取到了关键词及其链接，浏览器点击“46年吃3万个汉堡”对应的链接，跳转到百度搜索页，如下图。

技术分享图片

我们想获取新闻内容，而要获取新闻内容，我们就要知道新闻对应的链接。首先我们要定位,如下图。这里我们使用另外一种方式定位链接-正则表达式。

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

2.4 编写爬虫主函数

编写爬虫主函数，将数据保存到csv中。

技术分享图片

技术分享图片

运行爬虫，采集了50个关键词共388篇新闻内容。后续我们将对388篇文章内容做聚类分析，采用Kmeans算法试图让机器对388篇文章进行分类标注。而50个关键词则可以作为标签，衡量聚类的效果。

技术分享图片

觉得这篇文章有帮到你的话，请给个关注哦！

技术分享图片

---恢复内容结束---

写爬虫时碰到过乱码吗？乱码了怎么办？超长篇教学解决方法给你！

标签：分享图片 char 文章使用 charset 教学分类实战这就是我

原文地址：https://www.cnblogs.com/sm123456/p/9029149.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！