码迷,mamicode.com
首页 > 其他好文 > 详细

学习网络爬虫(1)

时间:2015-09-06 18:07:39      阅读:148      评论:0      收藏:0      [点我收藏+]

标签:

初学网络爬虫,请多多指教

以下是我觉得有用的资源总结,资源均来自网上

 

编程语言:java

使用网络爬虫:spiderman

 

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。
Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。

 

Spiderman开源中国链接(含文档及下载): http://www.oschina.net/p/spiderman

Spiderman Java 爬虫示例: http://my.oschina.net/laiweiwei/blog/99937

【最新更新支持频道分页、文章分页】【抛砖引玉】抓取OSC的问答数据展现垂直爬虫的能力 :http://my.oschina.net/laiweiwei/blog/100866

XPath JAVA用法总结及代码样例 :http://www.open-open.com/lib/view/open1397717612656.html

w3school  XPath教程 : http://www.w3school.com.cn/xpath/index.asp

 

学习网络爬虫(1)

标签:

原文地址:http://www.cnblogs.com/zuri/p/4786442.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!