码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫概述

时间:2015-05-10 17:11:17      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:

之前本打算做垂直搜索时使用了python的scrapy抓取 大众点评网的数据。

现在准备做一款互联网医疗的产品。爬虫是需要抓取自然理论数据。

因此对主流的开源爬虫框架做一个介绍。

Java:Nutch,Heritrix

C++:Larbin,PolyBot

Python:Scrapy

Erlang:Ebot

Ruby:Spidr

相对来说,Nutch+Lucene+Hadoop结合得比较好。比较适合做整套的数据抓取及分析。

爬虫概述

标签:

原文地址:http://www.cnblogs.com/onlyforcloud/p/4492436.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!