一 scrapy-redis实现分布式爬取分析
所谓的scrapy-redis实际上就是scrapy+redis其中对redis的操作采用redis-py客户端。这里的redis的作用以及在scrapy-redis的方向我在自己fork的repository(链接:)已经做了翻译(README.rst)。
在前面一篇文章中我已经借助两篇相关文章分析了使用redis实现爬虫分布式的中心。归结起来...
分类:
其他好文 时间:
2014-07-24 23:13:44
阅读次数:
306
正常通信的情况下,send函数发送成功会返回发送数据的字节数。当有错误发生时,send返回-1,全局变量errno被设置。很多情况下,send返回-1是由于连接被对端关闭(对端发送了RST或者FIN包),这种情况errno会被设置为ECONNRESET(Connection reset by pee...
分类:
其他好文 时间:
2014-07-24 22:54:43
阅读次数:
1722
以下信息纯属虚构,切勿相信!tcp/ip协议中有一个keep-alive机制,即检查空连接的时效性,当一个空连接持续一段时间后,就会发送一个keep-alive探测包,来探测客户端是否还存在.如果存在,则客户端返回一个ack报文如果存在,但构建连接的应用程序已经推出,则客户端返回一个rst报文,并发...
分类:
其他好文 时间:
2014-07-23 20:49:25
阅读次数:
247
产生RST的三个条件:
1. 目的地为某端口的SYN到达,然而该端口上没有正在监听的服务器;
2. TCP想取消一个已有的连接;
3. TCP接收到一个根本不存在的连接上的分节;
现在模拟上面的三种情况:
client:
struct sockaddr_in serverAdd;
bzero(&serverAdd, sizeof(serverAdd));...
分类:
其他好文 时间:
2014-07-22 17:57:21
阅读次数:
333
1.SYN:建立连接2.ACK:确认3.FIN:通讯终止4.RST:异常终止通讯连接5.URG:紧急数据6.PSH:发送方通过使用PUSH位来通知接收方将所有收到的数据立即提交给服务器进程,而不需要等待额外数据(将缓存填满)而让数据在缓存中停留!这里所说的数据包括与此PUSH包一起传输的数据以及之前...
分类:
其他好文 时间:
2014-07-16 23:24:44
阅读次数:
349
这是南方七月一个风少雨多,杀猪越货的早晨。混迹于IT圈多年,自制若干攻击利器,后门木马等,个人一直低调在用,基本上从未示众,借用唐朝贾岛同学的话说就是“十年磨一剑,霜刃未曾试。”。今早,就在今早,公布吧——所谓技术这东西,似乎、好像不能一辈子(尤其是在天朝)..
分类:
其他好文 时间:
2014-07-12 16:45:32
阅读次数:
396
1 # -*- coding: utf-8 -*- 2 """ 3 去除字符串两端的空格和字符 4 lstrip()、rstrip()、strip() 5 返回字符串的拷贝 6 """ 7 x = ' aaa ' 8 9 print '|',x.lstrip(),'|',x.rst...
分类:
其他好文 时间:
2014-06-28 20:25:33
阅读次数:
196
客户端(>5w)异步connect连接到server端,server端listen backlog设置为1024,发现存在部分客户端建立连接后,收到服务端的rst包。先看下tcp监听套接字维护的两个队列(来自Unix网络编程)测试模拟抓包如下:解释:异步connect过快,导致server端list...
分类:
其他好文 时间:
2014-06-26 17:51:36
阅读次数:
248
读取.dat图像文件
initial begin
// Initialize Inputs
CLK = 0;
RST = 1;
IMAGE_DATA = 0;
BUFFER_WEN = 0;
// Wait 100 ns for global reset to finish
#10000;
RST = 0;
#100;
RST = 1;
/...
分类:
其他好文 时间:
2014-06-24 20:31:16
阅读次数:
223
将EXCEL数据存入SQL表, 一万行记录大概5秒Dim conn As New ADODB.ConnectionDim CNN As New ADODB.Connection'Dim rst As New ADODB.RecordsetDim Sql As StringDim j, v As In...
分类:
数据库 时间:
2014-06-20 16:29:42
阅读次数:
222