码迷,mamicode.com
首页 >  
搜索关键字:爬虫类    ( 40个结果
Python爬虫实战(1):爬取Drupal论坛帖子列表
本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛,是一个用Drupal做的论坛。 ...
分类:编程语言   时间:2016-06-07 12:48:55    阅读次数:341
[踩坑]python实现并行爬虫
问题背景:指定爬虫depth、线程数, python实现并行爬虫   思路:    单线程 实现爬虫类Fetcher                 多线程 threading.Thread去调Fetcher  方法:Fetcher 中,用urllib.urlopen打开指定url,读取信息:response = urllib.urlopen(self.url) content = respon...
分类:编程语言   时间:2015-09-07 22:55:23    阅读次数:248
角蛋白
角蛋白属于硬蛋白,是组成人类皮肤的主要构成物质,亦是头发和指甲的主要构成物质。角蛋白单体结合成中间纤维,具坚硬和不可溶的特性,并可组成爬虫类、鸟类、两栖类和哺乳类动物的非矿化组织。与其有相似韧性的生物物质有甲壳素。表皮角化层的角质形成细胞含丰富的角质蛋白纤维。角蛋白可在以下组织找到:哺乳动物的头发和...
分类:其他好文   时间:2015-09-06 09:36:56    阅读次数:146
crawler4j 爬爬知多少
1.Crawler是什么?crawler4j是一个开源的java爬虫类库,可以用来构建多线程的web爬虫来抓取页面内容。2.如何获取Crawler?crawler4j的官方地址在这里,目前版本为4.1。如果你使用Maven,可以通过下面的pom的方式,如直接下载,点击这里。3.Crawler怎么用?crawler4j的使用分为..
分类:其他好文   时间:2015-09-03 11:37:05    阅读次数:230
分享知乎上关于爬虫的讨论
http://www.zhihu.com/question/27621722? 自己也写过爬虫,一开始是为了爬美女图供大伙观赏; 然后开始爬新闻,因为觉得每次打开几个技术网站去了解行业动态非常麻烦 爬虫类似一个自动化工具,抓取我们想要的数...
分类:其他好文   时间:2015-08-20 13:27:50    阅读次数:159
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一 个简单 的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的...
分类:编程语言   时间:2015-08-11 07:11:36    阅读次数:194
我是一只百度贴吧的小爬虫
总体功能:查看特定帖子楼主的发言(不包含图片)前段时间大概看了python的语法,但是确实第一次用python来写东西。很久之前就想学python,学爬虫了,现在终于开始了!谢了自己的第一个爬虫,很开心O(∩_∩)O 觉得学东西兴趣很重要,爬虫真的好玩!整个功能的实现含有两个类,一个是工具类Tool,另一个是百度贴吧的爬虫类BaiduTieba,提取网页的内容主要还是正则表达式。代码如下:# -*-...
分类:其他好文   时间:2015-08-01 19:04:56    阅读次数:251
HTTP响应消息头泄露信息的处理
一些Web服务器存在版本漏洞,就是说有些版本有漏洞,而有些版本没有。在访问Web服务器时,返回的HTTP响应消息头(ResponseHeader)中通常包含Server版本以及其他一些信息。这些头信息可用于网站统计分析,比如某些爬虫类搜索引擎,当然也包括攻击者进行社会工程信息收集。事实上..
分类:Web程序   时间:2015-04-11 06:46:02    阅读次数:1019
网页爬虫WebCrawler(2)-Utilities
在网页爬虫的实现过程中还涉及了一些基本的功能函数,例如获取系统的当前时间函数,进程休眠和字符串替换函数等。 我们将这些多次调用的与过程无关的函数写成一个类Utilities。 Code: /////Utilities.h //************************* //与操作系统相关的函数 //************************* #ifndef Uti...
分类:Web程序   时间:2014-10-22 16:01:00    阅读次数:248
Scrapy源码分析-常用的爬虫类-CrawlSpider(三)
CrawlSpider-爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。 因此您可以以其为起点,根据需求修改部分方法。当然您也可以实现自己的spider。...
分类:其他好文   时间:2014-07-20 10:18:09    阅读次数:225
40条   上一页 1 2 3 4
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!