用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的 全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一下,大概意思是显示的这个问号其实并不是问号,是乱码,主要是由于编码的问题导致的。 解决方法如下: 其中replace(' ', ' ...
分类:
编程语言 时间:
2016-07-24 11:48:50
阅读次数:
376
近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性。 在爬取内容时,遇到乱码问题。故需对网页内容编码格式做判断,方式大体分为三种:一、从header标签中获取Content-Type=#Charset;二、从meta标签中获取Content-Ty ...
分类:
编程语言 时间:
2016-07-21 19:51:47
阅读次数:
327
官方有详细的使用文档:http://webmagic.io/docs/zh/ 简介:这只是个java爬虫框架,具体使用需要个人去定制,没有图片验证,不能获取js渲染的网页,但简单易用,可以通过xpath和css选择符获取网页内容,官方也有超详细的文档,适合爬取简单的网页和新手学习爬虫。图片验证和js ...
分类:
Web程序 时间:
2016-07-09 22:08:35
阅读次数:
183
写在前面 最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象。抓取HTML节点通过像Jquery选择器一样选择节点,非常方便,Gecco代码主要利用注解实现来实 ...
分类:
编程语言 时间:
2016-06-30 12:47:19
阅读次数:
208
gecco爬虫 如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。 JD网站的分析 要抓取JD网站的全部商品信息,我们要先分析一下网站,京东网站可以大体分为三级,首页上通过分类跳转到商品列表页,商品列表页对每个商品 ...
分类:
编程语言 时间:
2016-06-30 12:45:39
阅读次数:
164
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步。Java是真的不能做爬虫吗? 当然不是。 只不过python的3行代码能解决的问题,而Java要30行。 这里推荐大家一个大牛做的java爬虫框架 【WebMagic】 文档简单易懂!java ...
分类:
Web程序 时间:
2016-06-20 08:53:37
阅读次数:
352
以下仅仅是自己一些粗浅认识,欢迎补充指正,欢迎进群交流! 掌握一半便能够熟练的开发爬虫玩了。自己正在努力中... 1,掌握java,尤其编程网络部分;李刚的java基础至少看了三遍以上; 2,熟悉html,js, ajax,firedebug3,网页去重,找到网站特点4,分布式5,多线程6,一种关系 ...
分类:
编程语言 时间:
2016-06-04 17:43:07
阅读次数:
274
起因 最近突然发了羊癫疯,对爬虫十分感兴趣,开始想写几个爬虫练练手,于是,洗手开搞。 像我这种懒人,对爬虫了解个大概之后就开始偷懒了,开始找框架了,Google关键字“Java 爬虫”,第一个搜索结果就是 高票回答推荐的几款爬虫框架:nutch、Heritrix、crawler4j、WebColle ...
分类:
编程语言 时间:
2016-05-20 19:19:26
阅读次数:
229