搜索关键字：spider，搜索到1087个结果！码迷,mamicode.com！

自己写的php curl库实现整站克隆

有时候常常会用到一些在线手冊，比方国内或国外的。有些是訪问速度慢，有些是作者直接吧站点关闭了，有些是server总是宕机。所以还是全盘克隆到自己server比較爽。所已这里给了一个demo <?php class Controller_Spider extends MyYaf_Controller ...

分类：Web程序时间：2017-05-21 20:35:04 阅读次数：226

scrapy爬虫框架

downloader：负责下载html页面 spider：负责爬取页面内容，我们需要自己写爬取规则 srapy提供了selector，获取的方式有xpath，css，正则，extract item容器：spider获取到的内容放到item中 schedul：负责调度 ...

分类：其他好文时间：2017-05-17 17:25:26 阅读次数：143

scrapy MysqlPipeline 同步和异步

importMySQLdb importMySQLdb.cursors classMysqlPipeline(object): #采用同步的机制写入mysql def__init__(self): self.conn=MySQLdb.connect(‘192.168.0.106‘,‘root‘,‘root‘,‘article_spider‘,charset="utf8",use_unicode=True) self.cursor=self.conn.cursor() defproces..

分类：数据库时间：2017-05-14 21:44:19 阅读次数：321

网络爬虫讲解（附java实现的实例）

网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到 ...

分类：编程语言时间：2017-05-12 17:35:00 阅读次数：401

scrapy 模拟登陆

import scrapy import urllib.request from scrapy.http import Request,FormRequest class LoginspdSpider(scrapy.Spider): name = "loginspd" allowed_domains... ...

分类：其他好文时间：2017-05-11 16:56:57 阅读次数：284

scrapy 修改URL爬取起始位置

import scrapy from Autopjt.items import myItem from scrapy.http import Request class AutospdSpider(scrapy.Spider): name = "fulong_spider" start_urls = ...

分类：Web程序时间：2017-05-10 14:56:04 阅读次数：180

scrapy 知乎关键字爬虫spider代码

以下是spider部分的代码。爬知乎是需要登录的，建议使用cookie就可以了，如果需要爬的数量预计不多，请不要使用过大的线程数量，否则会过快的被封杀，需要等十几个小时账号才能使用，得不偿失。 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from scra... ...

分类：其他好文时间：2017-05-07 10:17:49 阅读次数：308

scrapy递归抓取网页数据

scrapy spider的parse方法能够返回两种值：BaseItem。或者Request。通过Request能够实现递归抓取。假设要抓取的数据在当前页，能够直接解析返回item（代码中带**凝视的行直接改为yield item）；假设要抓取的数据在当前页指向的页面，则返回Request并指 ...

分类：Web程序时间：2017-05-06 19:03:35 阅读次数：229

crontab 无法执行

一个py抓取程序更改之后用crontab就是不会执行，直接发crontab的命令直接手动运行又正常，crontab中的其它任务能正常执行，看/var/log/cron日志也有运行命令，估计是程序问题把crontab 执行内容打印出来终于找到原因了 ...

分类：其他好文时间：2017-05-06 10:25:39 阅读次数：114

Scrapy系列教程（3）------Spider（爬虫核心，定义链接关系和网页信息抽取）

Spiders Spider类定义了怎样爬取某个(或某些)站点。包含了爬取的动作(比如:是否跟进链接)以及怎样从网页的内容中提取结构化数据(爬取item)。换句话说。Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说。爬取的循环类似下文: 以初始的URL初 ...

分类：Web程序时间：2017-05-02 13:39:54 阅读次数：922

共1087条上一页 1 ... 79 80 81 82 83 ... 109 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)