标签:
Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。
* 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 10 个扩展点。横跨蜘蛛线程的整个生命周期。 * 通过简单的配置就可以将复杂的网页内容解析为自己需要的业务数据,无需编写一句代码 * 多线程
这里有篇文章介绍示例: http://my.oschina.net/laiweiwei/blog/100866
这里只说下Chrome浏览器,其他浏览器估计也差不多,只不过插件不同而已。
标签:
原文地址:http://www.cnblogs.com/x113/p/4719826.html