标签:
之前本打算做垂直搜索时使用了python的scrapy抓取 大众点评网的数据。
现在准备做一款互联网医疗的产品。爬虫是需要抓取自然理论数据。
因此对主流的开源爬虫框架做一个介绍。
Java:Nutch,Heritrix
C++:Larbin,PolyBot
Python:Scrapy
Erlang:Ebot
Ruby:Spidr
相对来说,Nutch+Lucene+Hadoop结合得比较好。比较适合做整套的数据抓取及分析。
标签:
原文地址:http://www.cnblogs.com/onlyforcloud/p/4492436.html