码迷,mamicode.com
首页 > Web开发 > 详细

开源项目-网上公开http代理爬取、简单分类

时间:2018-01-04 16:28:10      阅读:232      评论:0      收藏:0      [点我收藏+]

标签:http   lan   div   ima   com   分享   tps   ice   git   

  爬取网上公开免费代理(http/socks),解析入库,可满足需要切换IP的场景(爬虫、投票等)需求。

  项目地址: https://github.com/Jwnie/proxyservice

  1、采用SpringBoot快速开发,mysql存储,httpclient 4.x 、selenium+chrome和Jsoup下载解析,并对已爬取的代理定时进行联通有效校验;

  2、目前支持两个代理查询接口,看需要可进行扩展:

  (1)http://localhost:8888/proxy/getProxy?isDemostic=true&anonymousType=elite&protocolType=https
    默认返回前一百条可用代理;
    参数说明: 
    (1) isDemostic: 可选参数,是否为国内代理,值为true和false;
    (2) anonymousType: 可选参数,代理的匿名类型,分为四种:transparent(透明)、anonymous(匿名)、distorting(混淆)、elite(高匿);
    (3) protocolType: 可选参数,代理的协议类型,分为http、https、socks4、socks5和socks(未做socks4和socks5的细分,统称为socks)

  返回数据:

  技术分享图片

  (2)http://localhost:8888/proxy/proxyStatistic

    查询代理数量,按代理站点统计:

  技术分享图片

  

开源项目-网上公开http代理爬取、简单分类

标签:http   lan   div   ima   com   分享   tps   ice   git   

原文地址:https://www.cnblogs.com/oomblog/p/8193467.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!