码迷,mamicode.com
首页 > 其他好文 > 详细

golang crawler

时间:2014-12-05 00:35:34      阅读:361      评论:0      收藏:0      [点我收藏+]

标签:blog   http   io   sp   on   数据   2014   log   bs   

最近看了《Go并发编程实战》,学了最后一章的crawler。这是一个很好的demo, 设计功能完备,同时具有可扩展性。

根据学到的思路简单总结一下,同时重复发明一下轮子。

Version 01:

bubuko.com,布布扣

比如:我们想爬一下一个外贸网站所有的 商品。

其中,有三个component,

(1) Downloader,  用来根据根据 request中的URL下载对应的页面。

(2) Analyzer 分析下载下来的页面,提取其中的 商品信息,作为Item。 同时提取其中内部链接

(3) Pipeline 对应后处理,  我们可以对 Item信息做一系列后处理,比如提取 商品名称、分类、价格等信息。对数据结构化结构化等一系列操作。

我们需要三个channel 分别装载Request,  Response, Item。

 

golang crawler

标签:blog   http   io   sp   on   数据   2014   log   bs   

原文地址:http://www.cnblogs.com/harrysun/p/4145340.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!