首页 > 其他好文 > 详细

爬虫遇到的坑🕳

时间：2020-01-26 19:00:09 阅读：114 评论：0 收藏：0 [点我收藏+]

标签：ref under python 解码知乎不能 none int https

爬取猫眼电影排行，无法正常显示中文，出现乱码

response.text响应总是乱码　
- 找了许多种方法，python爬虫解决gbk乱码问题、python爬虫的中文乱码问题？ - 知乎

　　　　　发现，在爬取百度[https://www.baidu.com/]时出现乱码，通过编码->解码，

import requests
url=‘https://www.baidu.com/‘
html=requests.get(url).text.encode(‘iso-8859-1‘).decode(‘utf-8‘) 
print(html)

　　　　　可以解决乱码问题。但是：不能指定headers，否则还是会出现乱码

- - 爬取猫眼电影时必须指定headers，否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
- 发现：
  - 爬虫时：有时出现乱码，有时正常显示中文。
  - 不使用爬虫，人工复制链接打开网站时时：（与爬虫时的两种情况对应，也出现两种情况）先弹出验证界面之后才显示猫眼电影网站；直接显示猫眼电影排行网站
- 最终解决方法：出现乱码时，人工复制链接打开网站，此时出现了验证界面，完成验证界面，此时显示出了要爬取的网站。之后，运行.py文件，不再出现乱码。
- 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性，以猫眼电影排行为例的乱码报错问题应该是个例问题。

正则表达式正确，但却不能正常匹配

爬虫遇到的坑🕳

标签：ref under python 解码知乎不能 none int https

原文地址：https://www.cnblogs.com/fran-py-/p/12234588.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！