urllib2是python自带的模块,有简单请求方法,也有复杂的http验证,http代理方法,今天就介绍几个基本的http请求方法urllib2.urlopenurllib2.urlopen(url,data=None,timeout=1,cafile=None,capath=None,cadefault=False,context=None)
下面是urllib2发起http请求,获取httpcode..
分类:
编程语言 时间:
2017-01-07 14:12:41
阅读次数:
197
import urllib2 import re import MySQLdb class LatestTest: #初始化 def __init__(self): self.url="https://toutiao.io/latest" self.UserAgent='Mozilla/5.0 (W... ...
分类:
编程语言 时间:
2017-01-05 09:52:16
阅读次数:
262
本节我们一起来看一下Cookie的使用。 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库 ...
分类:
编程语言 时间:
2016-12-30 18:56:46
阅读次数:
252
importurllibimporturllib2murl="http://zhpfbk.blog.51cto.com/"UserAgent="Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/56.0.2896.3Safari/537.36"req=urllib2.Request(murl)req.add_header(‘User-Agent‘,‘Mozilla/5.0‘)printreq.get_method..
分类:
编程语言 时间:
2016-12-27 01:32:29
阅读次数:
130
urllib和urllib2urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能;urllib和urllib2这两个模块并不可以互相替补;urllib2可以接受一个Request类的实例来设置URL请求的header,urllib仅可以接受URL。这就意味着你不可以伪装你的UserAgent字符串等urllib提供的ur..
分类:
编程语言 时间:
2016-12-26 19:22:27
阅读次数:
185
一、简介 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 二、requests Python标准库中提供了:urllib、urllib2、ht ...
分类:
其他好文 时间:
2016-12-24 19:39:47
阅读次数:
150
1 #!/usr/bin/env python 2 #-*-coding:utf-8-*- 3 import urllib 4 import urllib2 5 import json 6 import time 7 import sys 8 def check_ipaddr(func,*args,... ...
分类:
其他好文 时间:
2016-12-22 20:26:00
阅读次数:
268
环境:Ubuntu, Python 2.7 基础知识 这个程序涉及到的知识点有几个,在这里列出来,不详细讲,有疑问的直接百度会有一堆的。 1.urllib2 模块的 request 对像来设置 HTTP 请求,包括抓取的 url,和伪装浏览器的代理。然后就是 urlopen 和 read 方法,都很 ...
分类:
其他好文 时间:
2016-12-21 18:37:42
阅读次数:
237
主要内容: 1. python的安装 2. python爬虫的几个小例子 1. python的安装 在windows下一般采用jdk+eclipse+python的安装方式,这里eclipse的作用还是个编辑器,写代码用的,把python内嵌到eclipse环境下,实现在eclipse下编写扩展名为 ...
分类:
编程语言 时间:
2016-12-20 07:36:45
阅读次数:
212
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别 若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, urllib2, urll ...
分类:
编程语言 时间:
2016-12-18 15:11:29
阅读次数:
228