最近一直在研究爬虫的相关技术,网上关于爬虫的教程实在是太少了,只能靠一些零零散散的博客资料做一个浅度的学习,我们已经学习了webcollector,htmlparser,Jsoup这些爬虫技术,并也成功爬取了一些网站的数据,多多少少也算是有一些小的成就,今天又学习了一下crawlScript,这是一 ...
分类:
系统相关 时间:
2017-03-24 17:21:42
阅读次数:
235
在用jsoup访问页面时报错javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpat ...
分类:
Web程序 时间:
2017-03-21 19:26:31
阅读次数:
176
一不小心一个月又过去了,其实最近还是小忙小忙的,废话不多说,直接进入今天的主题吧。Jsoup – Java HTML Parser, with best of DOM, CSS, and jquery...
分类:
移动开发 时间:
2017-03-21 14:25:15
阅读次数:
252
jsoup是一款java html 解析器,可以解析url地址,html文本内容,可以通过dom,css以及类似javascript和jquery的操作方法来取出和操作数据 jsoup主要功能: 1.从url,文件或者字符串中解析html 2.使用dom或css或JavaScript或类似jquer ...
分类:
Web程序 时间:
2017-03-19 17:10:52
阅读次数:
1336
简单使用Scala和Jsoup对豆瓣电影进行爬虫,技术比较简单易学。
分类:
其他好文 时间:
2017-03-16 15:14:44
阅读次数:
251
在做Facebook和WhatsApp分享的时候,分享出去的谷歌短链,Facebook获取不到大图,和竞品展示的不一样,WhatsApp分享出去的短链没有图片和描述。 WhatsApp: 分析竞品UCNews,发现他们分享出去的WhatsApp链接指向的网页,在meat标签中添加了相关的属性,然后在 ...
分类:
Web程序 时间:
2017-03-08 12:44:55
阅读次数:
187
//这个函数的目的是在获取页面的同时,也获取链接对应的cookiepublic static HtmlPage getCookieAndHtml(String url)throws IOException{ URL link=new URL(url); WebClient wc=new WebCli ...
分类:
Web程序 时间:
2017-03-06 19:40:43
阅读次数:
345
包:jsoup-1.10.2.jar 测试: 格式说明: 测试结果: 被测试源文件: ...
分类:
Web程序 时间:
2017-03-04 22:31:22
阅读次数:
484
package com.open1111.jsoup; import org.apache.http.HttpEntity;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.clien ...
分类:
Web程序 时间:
2017-02-22 22:41:42
阅读次数:
185