按照官方文档的说明,安装scrapy 需要以下程序或者库:Python2.7lxml. Most
Linux distributions ships prepackaged versions of lxml. Otherwise refer
tohttp://lxml.de/installation...
分类:
其他好文 时间:
2014-05-25 03:34:05
阅读次数:
314
我的环境是ubuntu14.04安装scrapy,我使用pip
安装如果你还没安装pip,用下面命令安装sudo apt-get install python-pip然后使用pip来安装python相关的库扩展pip
install scrapy不过出现错误error: could not cre....
分类:
其他好文 时间:
2014-05-19 15:19:27
阅读次数:
364
在上一篇中,使用scrapy修改源IP发送请求的最后我们提到由于hosts文件不支持正则,会导致我们的随机域名DNS查询失败。是用DNS服务器可以解决这个问题,下面是我用gevent写的小工具,很简单。我们只拦截匹配的A记录,然后发送DNS Response,如果不匹配,那么我们服务器就是一个DNS代理,转发请求。# -*- coding=utf-8 -*-
import struct
from...
分类:
编程语言 时间:
2014-05-09 13:49:34
阅读次数:
560
packagecom.smilezl.scrapy;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.HttpURLConnection;importjava.net.URL;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.Statement;importjava.u..
分类:
Web程序 时间:
2014-05-04 17:35:41
阅读次数:
341
参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707