码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫--拉勾网

时间:2019-09-09 14:46:32      阅读:65      评论:0      收藏:0      [点我收藏+]

标签:服务器   序列   github   使用   代码   异常   preview   动态分配   发送   

1、分析整个网页

  首先需要获取到cookies,因为它是动态的,所以每隔一段时间都需要进行重新的获取

2、发送请求

  当你获取到指定时间段的cookie之后,下一步要做的就是通过整个cookie和url放在一起朝服务器发送请求,获取到服务器发送出来的数据(得到之后需要使用json进行反序列化)

3、对当前页面数据中的内容进行指定的操作

  如果你想要得到一大串数据中的指定的内容,那么你就可以通过一些第三方的类库来对这段数据进行操作

4、对url进行循环从而获取到所有当前的数据内容

  一个url只是一个页面的数据而已,如果想要获取多个页面的数据的话,就需要这个url中的某一个内容进行循环来得到所有url

 

总结:
  动态cookie获取跳过了获取当前页面源代码的过程,直接得到了json数据来进行相关的操作,减少了复杂度

  通过cookie+url的结合向服务端发送请求得到一个返回值就是Network中的preview中的数据

  referer:

    动态cookie需要进行实时更新,不然利用这个cookie获取了几次数据之后就可能获取不到内容了而产生异常

 

 

问题:

  只能返回一种类型,比如搜索了爬虫就不能搜索python 了

  解决:

    cookie是动态分配的,所以要抓准时间,一个cookie在使用指定次数之后就需要更新这个cookie了,不然就会抛异常

 

 

代码:https://github.com/1213William/lagou_spider

爬虫--拉勾网

标签:服务器   序列   github   使用   代码   异常   preview   动态分配   发送   

原文地址:https://www.cnblogs.com/tulintao/p/11491455.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!