标签:tin set sci 验证码 回退 哈希 work style 服务
一、基础
1)反爬:useragent/cookie/代理ip/js生成/需要登陆/refer/
2)url得到方式:network/search
3)提取方式:正则/xpath/bs4/josn/jsonpath/css
4)验证码处理:手动/打码平台/tesseract识别
5)数据去重:数据库分组去重/set去重/管道去重/url去重
6)加密方式:md5/sha1
7)request和response的区别:
request是服务器对浏览器请求封装,
response是服务器对服务器响应封装。
8)响应码:200正常访问/300重定向/400客户端错误/500服务器错误
9)OCR光学文字识别, tesseract模块
10)redis数据类型:集合/字符串/列表/哈希(hash)/有序集合(zset)
11)GET和POST区别
GET在浏览器回退时是无害的,而POST会再次提交请求。
GET产生的URL地址可以被Bookmark,而POST不可以。
GET请求会被浏览器主动cache,而POST不会,除非手动设置。
GET请求只能进行url编码,而POST支持多种编码方式。
GET请求参数会被完整保留在浏览器历史记录里,而POST中的参数不会被保留。
GET请求在URL中传送的参数是有长度限制的,而POST么有。
对参数的数据类型,GET只接受ASCII字符,而POST没有限制。
GET比POST更不安全,因为参数直接暴露在URL上,所以不能用来传递敏感信息。
GET参数通过URL传递,POST放在Request body中。
二、screpy框架
pipeline:返回items并存储
middleware:设置反爬机制,设置对应的反反爬对策:IP池,user-agent
settings:配置文件
spider:爬取所需的数据
标签:tin set sci 验证码 回退 哈希 work style 服务
原文地址:https://www.cnblogs.com/quietly-elegant/p/10257160.html