大三上寒假15天--第11天

时间：2020-02-12 00:42:34 阅读：64 评论：0 收藏：0 [点我收藏+]

标签：div thread RoCE lin pack ade return 网站 useragent

今天继续学习webmagic爬虫

通过老师给的学习资料学习后，对webmagic爬虫基本有了了解，当时对site方法有点模糊，今天也终于搞明白了，感觉就像模拟了一个用户一样，对一个网站的框架还是不是很了解，所以还是不太理解，那些cookie，host，UserAgent，和header是什么，不过我以后会搞明白，今天准备进行编码实际练习，进行一个网站的爬取。

这是爬取前十页信件目录一样的网页，还不清楚怎么获取信件内容url，我会继续努力

package my.webmagic;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler;

public class Getgov implements PageProcessor{
    private Site site=Site.me().setRetrySleepTime(3).setSleepTime(100);
    /**
     * @param args
     */
    public Site getSite() {
        // TODO Auto-generated method stub
        return site;
    }

    public void process(Page page) {
        // TODO Auto-generated method stub
        page.putField("allhtml",page.getHtml().toString());
        String urlstr=null;
    for(int i=2;i<=10;i++){
            urlstr="http://www.beijing.gov.cn/so/s?qt=%E4%BF%A1%E4%BB%B6&tab=all&siteCode=1100000088&page="+i;
            page.addTargetRequest(urlstr);
    }
        }
    public static void main(String[] args) {
        Spider.create(new Getgov())
        .addUrl("http://www.beijing.gov.cn/so/s?qt=%E4%BF%A1%E4%BB%B6&tab=all&siteCode=1100000088&page=1")
        .addPipeline(new FilePipeline("./"))
        .setScheduler(new FileCacheQueueScheduler("./"))
        .thread(5)
        .run();
        System.out.println("完成");
  }
}

大三上寒假15天--第11天

标签：div thread RoCE lin pack ade return 网站 useragent

原文地址：https://www.cnblogs.com/my---world/p/12297456.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行