#!coding:utf-8# 获取web页面import sys,urllib2req=urllib2.Request(sys.argv[1])fd=urllib2.urlopen(req)while 1: data=fd.read() if not len(data): ...
分类:
编程语言 时间:
2014-09-29 16:42:11
阅读次数:
165
#coding:utf-8import urllib #导入模块print dir(urllib) #查看urllib方法print help(urllib.urlopen) #查看帮助文档url="http://www.baidu.com" #定义网址html=urllib.urlop...
分类:
编程语言 时间:
2014-09-29 15:33:41
阅读次数:
163
var casper = require('casper').create({ verbose: true, logLevel: 'debug', pageSettings: { loadImages: false, loa...
分类:
Web程序 时间:
2014-09-28 15:10:22
阅读次数:
208
Scrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。安装环境:centos5.4python2.7.3安装步骤:1.下载python2.7http://www.python.org/ftp/python/2.7.3...
分类:
其他好文 时间:
2014-09-07 18:24:45
阅读次数:
317
最近在做城觅网的信息抓取,发现城觅网上海与北京的url是一样的。那怎样才确定信息的来源呢?折腾了半天,才发现城觅网是使用cookie的,如果你把网站的cookie禁用了,就无法在上海与北京之间切换了。于是便想到了请求时将cookie带上。方法如下:第一步,拿到上海或者北京的cookieMap coo...
分类:
Web程序 时间:
2014-08-25 20:47:24
阅读次数:
247
今天我们看看Nutch网页抓取,所用的几种数据结构:主要涉及到了这几个类:FetchListEntry,Page,首先我们看看FetchListEntry类:public final class FetchListEntry implements Writable, Cloneable实现了Writ...
分类:
Web程序 时间:
2014-08-22 15:59:58
阅读次数:
242
今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpRespon...
分类:
Web程序 时间:
2014-08-22 15:53:38
阅读次数:
266
最近刚网页抓取,抓取下来后需要解析,所以在网上找了一些资料,也问问我的师兄,最终结合网上的开源知识,完成了htmlcxx的使用。vs2013.首先要去下载htmlcxx:https://github.com/dhoerl/htmlcxx或者你也可以百度下去下载一个。接下来,将文件文件解压,我用vs2...
分类:
编程语言 时间:
2014-08-22 00:12:05
阅读次数:
372
通过URL去访问另一台计算机1、理解URL : HTTP协议的URL文件中的URL2、网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,然后读取服务器端的响应资源。 Java 语言是为网...
分类:
其他好文 时间:
2014-08-05 00:32:18
阅读次数:
384
###-*-coding:cp936-*-###<ahref="http://home.51cto.com"target="_blank">家园</a>##importurllib##str0=‘<ahref="http://home.51cto.com"target="_blank">家园</a>‘##href=str0.find(‘<ahref‘)##printhref##com=str0.find(‘.com"‘)##printcom##ur..
分类:
Web程序 时间:
2014-08-04 08:21:17
阅读次数:
263