标签:不同 遇到 性能 ons tcp 窗口 复杂 lld line
User-Agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户 host cookies:cookie用来保存登录信息 一般做爬虫都会加上请求头
如果是get方式,请求体没有内容
如果是post方式,请求体是form data
ps:
1、登录窗口,文件上传等,信息都会被附加到请求体内
2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post
#1、响应状态
200:代表成功
301:代表跳转
404:文件不存在
403:权限
502:服务器错误
#2、respone header
set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来
#3、preview就是网页源代码
最主要的部分,包含了请求资源的内容
如网页html,图片
二进制数据等
爬虫所需工具:
请求库:requests,selenium
解析库:正则,beautifulsoup,pyquery
存储库:文件,MySQL,Mongodb,Redis
#注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求
#各种请求方式:常用的就是requests.get()和requests.post()
>>> import requests
>>> r = requests.get(‘https://api.github.com/events‘)
>>> r = requests.post(‘http://httpbin.org/post‘, data = {‘key‘:‘value‘})
>>> r = requests.put(‘http://httpbin.org/put‘, data = {‘key‘:‘value‘})
>>> r = requests.delete(‘http://httpbin.org/delete‘)
>>> r = requests.head(‘http://httpbin.org/get‘)
>>> r = requests.options(‘http://httpbin.org/get‘)
标签:不同 遇到 性能 ons tcp 窗口 复杂 lld line
原文地址:http://www.cnblogs.com/ArmoredTitan/p/7795349.html