搜索关键字：爬虫类，搜索到40个结果！码迷,mamicode.com！

本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛，是一个用Drupal做的论坛。 ...

分类：编程语言时间：2016-06-07 12:48:55 阅读次数：341

问题背景：指定爬虫depth、线程数， python实现并行爬虫思路：单线程实现爬虫类Fetcher 多线程 threading.Thread去调Fetcher 方法：Fetcher 中，用urllib.urlopen打开指定url，读取信息：response = urllib.urlopen(self.url) content = respon...

分类：编程语言时间：2015-09-07 22:55:23 阅读次数：248

角蛋白

角蛋白属于硬蛋白，是组成人类皮肤的主要构成物质，亦是头发和指甲的主要构成物质。角蛋白单体结合成中间纤维，具坚硬和不可溶的特性，并可组成爬虫类、鸟类、两栖类和哺乳类动物的非矿化组织。与其有相似韧性的生物物质有甲壳素。表皮角化层的角质形成细胞含丰富的角质蛋白纤维。角蛋白可在以下组织找到：哺乳动物的头发和...

分类：其他好文时间：2015-09-06 09:36:56 阅读次数：146

crawler4j 爬爬知多少

1.Crawler是什么？crawler4j是一个开源的java爬虫类库，可以用来构建多线程的web爬虫来抓取页面内容。2.如何获取Crawler？crawler4j的官方地址在这里，目前版本为4.1。如果你使用Maven，可以通过下面的pom的方式，如直接下载，点击这里。3.Crawler怎么用？crawler4j的使用分为..

分类：其他好文时间：2015-09-03 11:37:05 阅读次数：230

分享知乎上关于爬虫的讨论

http://www.zhihu.com/question/27621722? 自己也写过爬虫，一开始是为了爬美女图供大伙观赏；然后开始爬新闻，因为觉得每次打开几个技术网站去了解行业动态非常麻烦爬虫类似一个自动化工具，抓取我们想要的数...

分类：其他好文时间：2015-08-20 13:27:50 阅读次数：159

JAVA平台上的网络爬虫脚本语言 CrawlScript

JAVA平台上的网络爬虫脚本语言 CrawlScript网络爬虫即自动获取网页信息的一种程序，有很多JAVA、C++的网络爬虫类库，但是在这些类库的基础上开发十分繁琐，需要大量的代码才可以完成一个简单的操作。鉴于这个问题，我们开发了CrawlScript这种脚本语言，程序员只需要写2-3行简单的...

分类：编程语言时间：2015-08-11 07:11:36 阅读次数：194

我是一只百度贴吧的小爬虫

总体功能：查看特定帖子楼主的发言（不包含图片）前段时间大概看了python的语法，但是确实第一次用python来写东西。很久之前就想学python，学爬虫了，现在终于开始了！谢了自己的第一个爬虫，很开心O(∩_∩)O 觉得学东西兴趣很重要，爬虫真的好玩！整个功能的实现含有两个类，一个是工具类Tool，另一个是百度贴吧的爬虫类BaiduTieba，提取网页的内容主要还是正则表达式。代码如下：# -*-...

分类：其他好文时间：2015-08-01 19:04:56 阅读次数：251

HTTP响应消息头泄露信息的处理

一些Web服务器存在版本漏洞，就是说有些版本有漏洞，而有些版本没有。在访问Web服务器时，返回的HTTP响应消息头(ResponseHeader)中通常包含Server版本以及其他一些信息。这些头信息可用于网站统计分析，比如某些爬虫类搜索引擎，当然也包括攻击者进行社会工程信息收集。事实上..

分类：Web程序时间：2015-04-11 06:46:02 阅读次数：1019

网页爬虫WebCrawler（2）-Utilities

在网页爬虫的实现过程中还涉及了一些基本的功能函数，例如获取系统的当前时间函数，进程休眠和字符串替换函数等。我们将这些多次调用的与过程无关的函数写成一个类Utilities。 Code： /////Utilities.h //************************* //与操作系统相关的函数 //************************* #ifndef Uti...

分类：Web程序时间：2014-10-22 16:01:00 阅读次数：248

Scrapy源码分析-常用的爬虫类-CrawlSpider（三）

CrawlSpider-爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。也许该spider并不是完全适合您的特定网站或项目，但其对很多情况都使用。因此您可以以其为起点，根据需求修改部分方法。当然您也可以实现自己的spider。...

分类：其他好文时间：2014-07-20 10:18:09 阅读次数：225

共40条上一页 1 2 3 4

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)