码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫初探

时间:2015-10-03 06:16:21      阅读:342      评论:0      收藏:0      [点我收藏+]

标签:爬虫   python   


pycharm中控制台运行后出现乱码。需要文件>>设置>>编辑器>>文件编码

技术分享


爬取网页

#-*-coding:utf-8-*-
import requests

#中文编码 UTF-8
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)

#模拟浏览器
hea = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36‘}

url = ‘‘  #爬取链接
html = requests.get(‘url‘,headers = hea)

print html.text
print ‘开始爬取内容。。。‘


模拟登陆爬虫,  #带有cookie

关键是如何获取cookie

ps.cookie遇到每次登陆都变化要注意变化点,往往变化的地方是随机码


方法一:通过抓包神器——Fiddler

技术分享

技术分享

方法2:

直接用IE审查元素

技术分享

#-*-coding:utf-8-*-
import requests
import re

cook = {‘Cookie‘:‘ ‘} 
url = ‘ ‘
html = requests.get(url, cookies = cook).content
print html


本文出自 “michelle” 博客,谢绝转载!

Python爬虫初探

标签:爬虫   python   

原文地址:http://5456032.blog.51cto.com/5446032/1699948

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!