正常用Python抓取网页信息,需要用到urllib2,调用urllib2.urlopen(url),可以获得response 反馈信息,再用response.read()即可获得页面的源码。 最简单的抓包代码: import urllib2 response = urllib2.urlopen('
分类:
Web程序 时间:
2016-02-16 19:07:29
阅读次数:
192
import urllib2 from urllib import quote f = open("data.in", "r") out = file("data2.out","w+") a = 1 for line in f: #print line str = quote(line) url =
分类:
编程语言 时间:
2016-02-16 16:45:41
阅读次数:
187
1:下载sublime 2: 打开sublime 按 ctrl + ` 或者 view ---> show console 在控制台里输入 [plain] view plain copy import urllib2,os; pf='Package Control.sublime-package';
分类:
其他好文 时间:
2016-02-16 10:05:59
阅读次数:
257
Sublime Text 2 安装Package Control和插件的两种方法 Package Control 方法一:在线安装,首先打开 Ctrl + ~,输入如下的代码: import urllib2,os; pf='Package Control.sublime-package'; ipp
分类:
其他好文 时间:
2016-02-16 09:59:15
阅读次数:
144
Python可以说是爬网的利器,本文主要介绍了一些python来模拟http请求的一些方法和技巧。 Python处理请求的类库有两个,urllib,urllib2。 这两个类库并不是一个类库的两个不同版本,urllib主要用来处理一些url相关的内容,发送请求的时候,请求对象只能是一个url。url
分类:
编程语言 时间:
2016-02-05 19:13:51
阅读次数:
235
模拟人人登陆 #encoding=utf-8 import urllib2 import urllib import cookielib def renrenBrower(url,user,password): #登陆页面,能够通过抓包工具分析获得,如fiddler。wireshark login_
分类:
编程语言 时间:
2016-02-04 09:48:01
阅读次数:
242
异常处理 作为爬虫的抓取过程基本就那么多内容了,后面再将一些正则表达式的东西简单介绍一下基本就完事了,下面先说说异常处理的方法。先介绍一下抓取过程中的主要异常,如URLError和HTTPError。 URLError可能产生的原因主要有:网络无连接,即本机无法上网;连接不到特定的服务器;服务器不存
分类:
Web程序 时间:
2016-01-29 20:32:44
阅读次数:
254
Cookie是指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据(通常经过加密),比如说有些网站需要登录才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到了目的了。 Opene
分类:
其他好文 时间:
2016-01-29 20:21:08
阅读次数:
175
学过python的帅哥都知道,爬虫是python的非常好玩的东西,而且python自带urllib、urllib2、requests等的库,为爬虫的开发提供大大的方便。这次我要用urllib2,爬一堆风景图片。先上重点代码1 response = urllib2.urlopen(url).r...
分类:
编程语言 时间:
2016-01-24 14:18:25
阅读次数:
186
前在一个项目中遇到用post提交一个xml,xml中含有中文,对于单独的py文件,使用urllib2.urlopen完全ok,但在django中使用就一直报编码错误,然后在网上看到这篇文章不错,决定mark一下,学习学习。原文地址:http://www.2cto.com/kf/201407/3178...
分类:
编程语言 时间:
2016-01-14 15:43:16
阅读次数:
228