搜索关键字：spider，搜索到1087个结果！码迷,mamicode.com！

CountableThreadPool

Spider剩下的CountableThreadPool 在上一篇的Spider中我们一定注意到了threadpool这个变量，这个变量是Spider中的线程池，具体代码 public class CountableThreadPool { private int threadNum; privat ...

分类：其他好文时间：2016-10-19 07:45:54 阅读次数：297

webmagic笔记

在class Spider中有run函数，调用了 processRequest(requestFinal)完成对页面的下载和处理。在这个函数里面先调用downloader.download(request, this);完成页面的下载， pageProcessor.process(page);完成对 ...

分类：Web程序时间：2016-10-19 07:43:05 阅读次数：610

Atitit atiuse软件系列

Atitit atiuse软件系列 1.1. Atian inputmethod 输入法方言与多语言多文字支持 (au)1 1.2. File searcher 文件搜索器，支持压缩文件与正则表达式搜索以及自定义扩展(au)2 1.3. spider爬虫，数据采集，数据解析（au）2 1.4. ...

分类：其他好文时间：2016-10-19 02:26:17 阅读次数：142

scrapy的学习总结（1）

1.xpath和css的节点的共同结合使用是一个挺好的使用过程，还有就是配合正则表达式的使用，这个也是很重要的。解决任何一个问题都会有不同方法。学会思考的解决问题。 2.item的数据抽取，pipeline的数据处理，setting抓取时候的设置，spider中的爬虫的编写。 3.数据处理的学习，p ...

分类：其他好文时间：2016-10-08 14:12:30 阅读次数：134

[Todo] Nodejs学习及Spider实验（包括php入门学习、React入门学习）

/Users/baidu/Documents/Data/Interview/Web-Server开发深入浅出Node.js-f46c http://blog.csdn.net/u012273376/article/details/52736906 利用nodejs做爬虫 http://www.ru ...

分类：Web程序时间：2016-10-07 23:15:50 阅读次数：190

nginx下禁止访问robots.txt的设置方法

关于robots.txt文件：搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot 访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指..

分类：其他好文时间：2016-09-28 19:55:21 阅读次数：121

爬虫：Scrapy17 - Common Practices

在脚本中运行 Scrapy 除了常用的 scrapy crawl 来启动 Scrapy，也可以使用 API 在脚本中启动 Scrapy。需要注意的是，Scrapy 是在 Twisted 异步网络库上构建的，因此其必须在 Twisted reactor 里运行。另外，在 spider 运行结束后， ...

分类：其他好文时间：2016-09-23 11:13:35 阅读次数：238

爬虫：Scrapy16 - Spider Contracts

Scrapy 通过合同（contract）的方式来提供了测试 spider 的集成方法。可以硬编码（hardcode）一个样例（sample）url，设置多个条件来测试回调函数处理 response 的结果，来测试 spider 的回调函数。每个 contract 包含在文档字符串（docstri ...

分类：其他好文时间：2016-09-22 11:36:36 阅读次数：145

爬虫：Scrapy8 - Item Pipeline

当 Item 在 Spider 中被收集之后，它将会被传递到 Item Pipeline，一些组件会按照一定的顺序执行对 Item 的处理。每个 item pipeline 组件（有时也称之为“Item Pipeline”）是实现了简单方法的 Python 类。他们接收到 Item 并通过它执行一 ...

分类：其他好文时间：2016-09-14 16:25:18 阅读次数：132

爬虫：Scrapy4 - Spiders

Spider 类定义了如何爬取某个（或某些）网站。包括了爬取的动作（例如：是否跟进链接）以及如何从网页的内容中提取结构化数据（爬取item）。Spider就是定义爬取的动作以及分析某个网页（或者有些网页）的地方。对 spider 来说，爬取的循环类似下文： 1. 以初始的 URL 初始化 Requ ...

分类：其他好文时间：2016-09-13 13:10:25 阅读次数：200

共1087条上一页 1 ... 86 87 88 89 90 ... 109 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)