py爬虫姿势

时间：2019-03-03 20:35:19 阅读：189 评论：0 收藏：0 [点我收藏+]

标签：on() art def get .text connect 头文件包含 ica

基础包括

head{}字典存取要传入的包头文件列如可以认为是通用数据头具体的数据头应抓包获得

headers = {
‘User-Agent‘: ‘Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:39.0) Gecko/20100101 Firefox/39.0‘,
‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
‘Accept-Language‘: ‘en-US,en;q=0.5‘,
‘Accept-Encoding‘: ‘gzip, deflate‘,
‘Connection‘: ‘keep-alive‘}

模拟登陆

该数据是视觉中国进行模拟登陆

先在视觉中国输入错误的账号密码获取到一个发送值可以调用浏览器页面的检查功能发现
获取值为{‘username‘: "*****", ‘password‘: "*******", ‘captcha‘: "", ‘lgt‘: "0", ‘token‘: ""}

命名为date

使用 post()函数传入登陆地址，实际账号密码，和头数据。

编写函数测试是否返回了cookies如果没有返回值就进行抓包找到实际发送值并对值进行提取

详见https://blog.csdn.net/churximi/article/details/50917322 我是从这里学习的

def login():
s = requests.session()
loginURL = "https://www.vcg.com/ajax/login/submit" # POST发送到的网址
login = s.post(loginURL, data = date, headers = headers) # 发送登录信息，返回响应信息（包含cookie）
cookies = login.cookies
return cookies

获取网页

get()函数获取网址，传入url or urls ,heasders ,超时时间 html的值是网页的

table获取的是html里获取的相对应的标签内部的值，如果无对应会返回None并且find_all()会提示错误

html=requests.get(‘https://18moe.com/category/game‘,headers=headers,timeout=5).text
table=BeautifulSoup(html,‘lxml‘).find(‘select‘,{‘class‘,‘poi-pager__item_middle_select poi-form__control‘})

使用代理

暂未使用等待补充

py爬虫姿势

标签：on() art def get .text connect 头文件包含 ica

原文地址：https://www.cnblogs.com/mo-zixuan/p/10466967.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行