码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫基本知识

时间:2019-01-11 21:21:22      阅读:68      评论:0      收藏:0      [点我收藏+]

标签:tin   set   sci   验证码   回退   哈希   work   style   服务   

一、基础

1)反爬:useragent/cookie/代理ip/js生成/需要登陆/refer/
2)url得到方式:network/search
3)提取方式:正则/xpath/bs4/josn/jsonpath/css
4)验证码处理:手动/打码平台/tesseract识别
5)数据去重:数据库分组去重/set去重/管道去重/url去重
6)加密方式:md5/sha1

7)request和response的区别:

    request是服务器对浏览器请求封装,

    response是服务器对服务器响应封装。

8)响应码:200正常访问/300重定向/400客户端错误/500服务器错误
9)OCR光学文字识别, tesseract模块
10)redis数据类型:集合/字符串/列表/哈希(hash)/有序集合(zset)

11)GET和POST区别

  GET在浏览器回退时是无害的,而POST会再次提交请求。
  GET产生的URL地址可以被Bookmark,而POST不可以。
  GET请求会被浏览器主动cache,而POST不会,除非手动设置。
  GET请求只能进行url编码,而POST支持多种编码方式。
  GET请求参数会被完整保留在浏览器历史记录里,而POST中的参数不会被保留。
  GET请求在URL中传送的参数是有长度限制的,而POST么有。
  对参数的数据类型,GET只接受ASCII字符,而POST没有限制。
  GET比POST更不安全,因为参数直接暴露在URL上,所以不能用来传递敏感信息。
  GET参数通过URL传递,POST放在Request body中。

二、screpy框架

pipeline:返回items并存储
middleware:设置反爬机制,设置对应的反反爬对策:IP池,user-agent
settings:配置文件
spider:爬取所需的数据

 

爬虫基本知识

标签:tin   set   sci   验证码   回退   哈希   work   style   服务   

原文地址:https://www.cnblogs.com/quietly-elegant/p/10257160.html

(0)
(0)
   
举报
评论 一句话评论(0
0条  
登录后才能评论!
© 2014 mamicode.com 版权所有 京ICP备13008772号-2
迷上了代码!