码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
java爬取网页内容 简单例子(2)——附jsoup的select用法详解
【背景】 在上一篇博文java爬取网页内容 简单例子(1)——使用正则表达式里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则表达式 对于没有很好正则表达式基础的人——比如说我T_T——是一件蛮困难的事。这一篇,我们改用jsou....
分类:编程语言   时间:2014-08-08 17:29:36    阅读次数:295
java网页爬虫简单实例详解——获取天气预报。
【本文介绍】 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西,例如呢?例如天气预报,总不能自己拿着仪器去测吧!当然,要获取天气预报还是用webService好。这里只是举个例子。话不多说了,上看看效果吧。 【效果】我们随便找个天气预报的网站来试试:http...
分类:编程语言   时间:2014-08-06 17:54:02    阅读次数:440
Nutch源码阅读进程3---fetch
本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程,其中包括通过生产者-消费者的模型解决爬虫问题,nutch如何爬取页面以及对于不同的返回状态做相应的处理机制,其中还涉及到一些多线程的知识。
分类:其他好文   时间:2014-08-02 17:55:13    阅读次数:290
用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。教程介绍了如何用WebCollector打造一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)...
分类:编程语言   时间:2014-07-27 11:50:23    阅读次数:424
Nutch源码阅读进程1---inject
本文主要从nutch的Crawl方法开始,分享了nutch爬取的第一个步骤——注入(Inject)以及具体的流程和处理的方法
分类:其他好文   时间:2014-07-26 16:53:51    阅读次数:328
scrapy-redis实现爬虫分布式爬取分析与实现
一 scrapy-redis实现分布式爬取分析 所谓的scrapy-redis实际上就是scrapy+redis其中对redis的操作采用redis-py客户端。这里的redis的作用以及在scrapy-redis的方向我在自己fork的repository(链接:)已经做了翻译(README.rst)。 在前面一篇文章中我已经借助两篇相关文章分析了使用redis实现爬虫分布式的中心。归结起来...
分类:其他好文   时间:2014-07-24 23:13:44    阅读次数:306
BeautifulSoup下Unicode乱码解决
今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4不过在爬取过程中遇到了一些问题,其中一个是Unicode转码问题,这也算是python中一个著名问题了。我遇到的算是Beautiful...
分类:其他好文   时间:2014-07-22 22:53:55    阅读次数:229
python实现简单爬虫(二)---- 使用urllib等python模块
之前使用scrapy实现了一个超级简单的爬虫工具,用于抓取豆瓣上面所有的编程书籍信息(由于不需要爬取整个页面的所以链接,所以不需要用到BFS or DFS,只实现顺序抓取下一页) 这次使用的是python自带的urllib 和urllib2等python模块实现,同样以豆瓣上面的爱情电影信息作...
分类:编程语言   时间:2014-07-22 22:47:35    阅读次数:347
Scrapy源码分析-常用的爬虫类-CrawlSpider(三)
CrawlSpider-爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。 因此您可以以其为起点,根据需求修改部分方法。当然您也可以实现自己的spider。...
分类:其他好文   时间:2014-07-20 10:18:09    阅读次数:225
py爬取英文文档学习单词
最近开始看一些整本整本的英文典籍,虽然能看个大概,但是作为四级都没过的我来说还是有些吃力,总还有一部分很关键的单词影响我对句子的理解,因为看的是纸质的,所以查询也很不方便,于是想来个突击,我想把程序单词收拢在一起学习一下,希望这样的更有针对性一些,因为你想,arbitrary (任意的,武断的).....
分类:其他好文   时间:2014-07-16 21:43:37    阅读次数:253
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!