转载:http://www.floatinglife.cn/关于heritrix安装配置时出现必须限制口令文件读取访问最近开始写一个RSS聚合程序,需要爬虫支持,于是就整来heritrix,没想到,这东西还挺拽,费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力,终于起来了,具体步骤...
分类:
其他好文 时间:
2014-09-18 00:38:12
阅读次数:
369
?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记? ? ? ? 由于需要也是为了督促自己学习新的东西,我原本想要尝试着写一个爬虫程序,能够在...
分类:
编程语言 时间:
2014-09-17 19:01:42
阅读次数:
269
XSScrapy是一个快速、直接的XSS漏洞检测爬虫,你只需要一个URL,它便可以帮助你发现XSS跨站脚本漏洞。XSScrapy的XSS漏洞攻击测试向量将会覆盖Http头中的Referer字段User-Agent字段Cookie表单(包括隐藏表单)URL参数RUL末尾,如www.example.co...
分类:
其他好文 时间:
2014-09-17 11:45:42
阅读次数:
204
python真是一门非常优秀的语言,非常适合初学者,也非常适合写一些原型程序。这篇文章总结了下以前做的各种和网络相关的东西:自动登录、提取信息、模拟点击、模拟上传、取号等等,多亏了python才使世界变得那么美好! 本次我们主要是模拟浏览器下载网页,学会了下载网页其他的下载图片什么的都是一样的套路。...
分类:
编程语言 时间:
2014-09-16 21:48:21
阅读次数:
310
最近互联网思维这个词很火,各种产品被包装成了高大上,然后一群神棍把小白们忽悠的昏天黑地。到处都是小米,黄太吉,马佳佳,雕爷牛腩的成功案例。但是今天,我的文章与互联网思维没有半毛线关系,前面也都是废话。我用最真实最新鲜热乎的数据来告诉你,真正的互联网安全套行业是什么样的。
======华丽的分割线===========
数据来源:通过爬虫技术对主流的套套平台的公开页面进行大量的数据抓取。
数据...
分类:
其他好文 时间:
2014-09-16 10:51:35
阅读次数:
445
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格。搜索了一下,python的scrapy是一个不错的爬虫框架,于是基于scrapy写了一个简易的爬虫。先分析商品页面,在http://www.muyin...
分类:
Web程序 时间:
2014-09-14 18:00:07
阅读次数:
195
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等。这几天看了点基础,记录下来。 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先,概括的说来如下: 2个数组,一个记录已访问的网页(Al),一个记录未访问的网页(Un...
分类:
编程语言 时间:
2014-09-14 12:51:17
阅读次数:
427
前天简单分享了用shell写网络爬虫的一些见解,今天特地把代码发出来与51博友分享,还是那句话,爱技术、爱开源、爱linux。针对脚本的注解和整体构思,我会放到脚本之后为大家详解。#!/bin/bash
#
#Thisscriptisusedtograbthedataonthespecifiedindustrywebsites
#Writtenbysuns..
分类:
其他好文 时间:
2014-09-14 11:27:27
阅读次数:
295
#-*-coding:utf-8-*-#python:2.x__author__='Administrator'importurllib2#例子LOGIN='wesc'PASSWD="you'llNeverGuess"URL='http://localhost'defh1(url):fromurlp...
分类:
编程语言 时间:
2014-09-13 17:10:35
阅读次数:
247
今天看了汪海写的python爬虫教程,说实话看不懂。。。于是就用bash下的工具自己开始写了一个抓取糗事百科的糗事的脚本,期间搜索到了grep和curl命令的一些使用技巧。grep命令,使用grep命令来进行文本的通配,一般只是显示匹配的行,但是使用以下几个参数就可以显示上下文了:-C [num] ...
分类:
其他好文 时间:
2014-09-12 23:19:24
阅读次数:
665