pycharm中控制台运行后出现乱码。需要文件>>设置>>编辑器>>文件编码
爬取网页
#-*-coding:utf-8-*- import requests #中文编码 UTF-8 import sys reload(sys) sys.setdefaultencoding(‘utf-8‘) #模拟浏览器 hea = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36‘} url = ‘‘ #爬取链接 html = requests.get(‘url‘,headers = hea) print html.text print ‘开始爬取内容。。。‘
模拟登陆爬虫, #带有cookie
关键是如何获取cookie
ps.cookie遇到每次登陆都变化要注意变化点,往往变化的地方是随机码
方法一:通过抓包神器——Fiddler
方法2:
直接用IE审查元素
#-*-coding:utf-8-*- import requests import re cook = {‘Cookie‘:‘ ‘} url = ‘ ‘ html = requests.get(url, cookies = cook).content print html
本文出自 “michelle” 博客,谢绝转载!
原文地址:http://5456032.blog.51cto.com/5446032/1699948