这个框架关注了很久,但是直到最近空了才仔细的看了下这里我用的是scrapy0.24版本先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来。先说明下这个玩具爬虫的目的能够将种子URL页面当中的小组进行爬取并分析出有..
分类:
数据库 时间:
2014-11-28 06:28:08
阅读次数:
491
这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下。不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现。...
分类:
编程语言 时间:
2014-11-27 22:09:33
阅读次数:
273
老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序。需求:某网的商品信息,包括商品名,市场价和售价工具:python2.7.8,urllib2,re#coding = utf-8import urllib2import repath = "aaa.txt"f = ...
分类:
编程语言 时间:
2014-11-27 06:46:13
阅读次数:
124
转载自我的博客:http://www.mylonly.com/archives/1418.html#!/usr/bin/env python #coding: utf-8 ############################################################## F...
分类:
编程语言 时间:
2014-11-24 19:02:35
阅读次数:
261
前段时间想给seo那边做个某工具站的爬虫,用到了图像识别(对方防守可谓严密啊,异步返回非标准json结构+referer+加密+图像四道防线.嘿嘿,代码就不放了.)正好公司要给全站图片加水印,刚研究的图像识别又有用武之地了.万事先谷歌,找到个加水印的代码,修改了一番就用上了.^ ^ 1 impor....
分类:
编程语言 时间:
2014-11-24 13:32:22
阅读次数:
336
一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。Regex reg = new Regex(@"(?is)]*?href=(['""]?)(?[^'""\s>]+)\1[^>]*>(?(?:(?!"); MatchCollection mc =...
Spiders
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。
对spider来说,爬取的循环类似下文:
以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生...
分类:
Web程序 时间:
2014-11-20 12:04:07
阅读次数:
329
避免被禁止(ban)
有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。 与这些规则打交道并不容易,需要技巧,有时候也需要些特别的基础。 如果有疑问请考虑联系 商业支持 。
下面是些处理这些站点的建议(tips):
使用user agent池,轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考 ...
分类:
其他好文 时间:
2014-11-20 12:02:41
阅读次数:
239
package 案例;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import ...
分类:
其他好文 时间:
2014-11-19 21:59:30
阅读次数:
258