码迷,mamicode.com
首页 >  
搜索关键字:spider    ( 1087个结果
自己写的php curl库实现整站克隆
有时候常常会用到一些在线手冊,比方国内或国外的。有些是訪问速度慢,有些是作者直接吧站点关闭了,有些是server总是宕机。所以还是全盘克隆到自己server比較爽。所 已这里给了一个demo <?php class Controller_Spider extends MyYaf_Controller ...
分类:Web程序   时间:2017-05-21 20:35:04    阅读次数:226
scrapy爬虫框架
downloader:负责下载html页面 spider:负责爬取页面内容,我们需要自己写爬取规则 srapy提供了selector,获取的方式有xpath,css,正则,extract item容器:spider获取到的内容放到item中 schedul:负责调度 ...
分类:其他好文   时间:2017-05-17 17:25:26    阅读次数:143
scrapy MysqlPipeline 同步和异步
importMySQLdb importMySQLdb.cursors classMysqlPipeline(object): #采用同步的机制写入mysql def__init__(self): self.conn=MySQLdb.connect(‘192.168.0.106‘,‘root‘,‘root‘,‘article_spider‘,charset="utf8",use_unicode=True) self.cursor=self.conn.cursor() defproces..
分类:数据库   时间:2017-05-14 21:44:19    阅读次数:321
网络爬虫讲解(附java实现的实例)
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到 ...
分类:编程语言   时间:2017-05-12 17:35:00    阅读次数:401
scrapy 模拟登陆
import scrapy import urllib.request from scrapy.http import Request,FormRequest class LoginspdSpider(scrapy.Spider): name = "loginspd" allowed_domains... ...
分类:其他好文   时间:2017-05-11 16:56:57    阅读次数:284
scrapy 修改URL爬取起始位置
import scrapy from Autopjt.items import myItem from scrapy.http import Request class AutospdSpider(scrapy.Spider): name = "fulong_spider" start_urls = ...
分类:Web程序   时间:2017-05-10 14:56:04    阅读次数:180
scrapy 知乎关键字爬虫spider代码
以下是spider部分的代码。爬知乎是需要登录的,建议使用cookie就可以了,如果需要爬的数量预计不多,请不要使用过大的线程数量,否则会过快的被封杀,需要等十几个小时账号才能使用,得不偿失。 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from scra... ...
分类:其他好文   时间:2017-05-07 10:17:49    阅读次数:308
scrapy递归抓取网页数据
scrapy spider的parse方法能够返回两种值:BaseItem。或者Request。通过Request能够实现递归抓取。 假设要抓取的数据在当前页,能够直接解析返回item(代码中带**凝视的行直接改为yield item); 假设要抓取的数据在当前页指向的页面,则返回Request并指 ...
分类:Web程序   时间:2017-05-06 19:03:35    阅读次数:229
crontab 无法执行
一个py抓取程序更改之后用crontab就是不会执行,直接发crontab的命令直接手动运行又正常,crontab中的其它任务能正常执行,看/var/log/cron日志也有运行命令,估计是程序问题 把crontab 执行内容打印出来终于找到原因了 ...
分类:其他好文   时间:2017-05-06 10:25:39    阅读次数:114
Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
Spiders Spider类定义了怎样爬取某个(或某些)站点。包含了爬取的动作(比如:是否跟进链接)以及怎样从网页的内容中提取结构化数据(爬取item)。 换句话说。Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 对spider来说。爬取的循环类似下文: 以初始的URL初 ...
分类:Web程序   时间:2017-05-02 13:39:54    阅读次数:922
1087条   上一页 1 ... 79 80 81 82 83 ... 109 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!