pycharm中控制台运行后出现乱码。需要文件>>设置>>编辑器>>文件编码
爬取网页
#-*-coding:utf-8-*-
import requests
#中文编码 UTF-8
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
#模拟浏览器
hea = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36‘}
url = ‘‘ #爬取链接
html = requests.get(‘url‘,headers = hea)
print html.text
print ‘开始爬取内容。。。‘模拟登陆爬虫, #带有cookie
关键是如何获取cookie
ps.cookie遇到每次登陆都变化要注意变化点,往往变化的地方是随机码
方法一:通过抓包神器——Fiddler
方法2:
直接用IE审查元素
#-*-coding:utf-8-*-
import requests
import re
cook = {‘Cookie‘:‘ ‘}
url = ‘ ‘
html = requests.get(url, cookies = cook).content
print html本文出自 “michelle” 博客,谢绝转载!
原文地址:http://5456032.blog.51cto.com/5446032/1699948