码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫遇到的坑🕳

时间:2020-01-26 19:00:09      阅读:114      评论:0      收藏:0      [点我收藏+]

标签:ref   under   python   解码   知乎   不能   none   int   https   

爬取猫眼电影排行,无法正常显示中文,出现乱码

         发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过编码->解码,

import requests
url=https://www.baidu.com/
html=requests.get(url).text.encode(iso-8859-1).decode(utf-8) 
print(html)

          可以解决乱码问题。但是不能指定headers,否则还是会出现乱码

      • 爬取猫眼电影时必须指定headers,否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
    • 发现
      • 爬虫时:有时出现乱码,有时正常显示中文。
      • 不使用爬虫,人工复制链接打开网站时时:(与爬虫时的两种情况对应,也出现两种情况)先弹出验证界面之后才显示猫眼电影网站;直接显示猫眼电影排行网站
    •  最终解决方法:出现乱码时,人工复制链接打开网站,此时出现了验证界面,完成验证界面,此时显示出了要爬取的网站。之后,运行.py文件,不再出现乱码。
    • 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性,以猫眼电影排行为例的乱码报错问题应该是个例问题。

正则表达式正确,但却不能正常匹配

 

爬虫遇到的坑🕳

标签:ref   under   python   解码   知乎   不能   none   int   https   

原文地址:https://www.cnblogs.com/fran-py-/p/12234588.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!