码迷,mamicode.com
首页 > 微信 > 详细

06 使用代理爬取搜狗微信文章

时间:2017-11-25 11:19:16      阅读:263      评论:0      收藏:0      [点我收藏+]

标签:sid   enc   col   master   https   pyw   ofo   字段   爬取   

参考:静觅丨崔庆才的个人博客

 

项目地址:copywang/spiders_collection

 

实现功能

  1. 根据登陆后的cookie制作header,请求搜索微信文章
  2. url需要使用urlencode拼接
  3. 使用代理避免IP被封
  4. 使用pyquery解析得到需要的字段信息
  5. 爬取文章详情页并存储到MongoDB

步骤

  1. 制作cookie,拼接URL
  2. 获取每一页的html代码
  3. 从每一页的html代码解析得到具体文章的url
  4. 获取具体文章的url,解析得到需要的信息

收获

  1. 使用pyquery
  2. 使用代理IP
  3. 异常处理

06 使用代理爬取搜狗微信文章

标签:sid   enc   col   master   https   pyw   ofo   字段   爬取   

原文地址:http://www.cnblogs.com/copywang/p/7894522.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!