1. 目标:开发轻量级爬虫(不包括需登陆的 和 Javascript异步加载的) 不需要登陆的静态网页抓取 2. 内容: 2.1 爬虫简介 2.2 简单爬虫架构 2.3 URL管理器 2.4 网页下载器(urllib2) 2.5 网页解析器(BeautifulSoup) 2.6 完整实例:爬取百度百 ...
分类:
编程语言 时间:
2017-02-14 13:25:23
阅读次数:
313
keepalive的配置文件 使用的脚本:/root/check_code.py (该脚本检查http的状态吗,如果不是200,则关闭keepalive服务,使VIP漂移到备份机上) #!/usr/bin/env python import urllib2 import os url = 'http ...
分类:
其他好文 时间:
2017-02-14 12:01:55
阅读次数:
236
Python文件夹下图像数据可视化 import matplotlib.pyplot as plt import matplotlib.image as mpimg import numpy as np import urllib2 import urllib import os import sh... ...
分类:
编程语言 时间:
2017-02-13 20:34:57
阅读次数:
233
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。 Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。 ...
分类:
编程语言 时间:
2017-02-08 22:40:55
阅读次数:
277
一、最简单的使用 import urllib,urllib2 response = urllib2.urlopen("https://www.baidu.com") print response.read() 二、构造Request对象 request = urllib2.Request("http ...
分类:
Web程序 时间:
2017-02-06 14:37:13
阅读次数:
221
#_*_coding:utf_8_ from sgmllib import SGMLParserimport sys, urllib2, urllib, cookielibimport datetime, time class spider(SGMLParser): def __init__(sel ...
分类:
编程语言 时间:
2017-02-02 23:36:57
阅读次数:
237
1. 便捷数据获取 1.2 网络数据获取: 1.2.1 urllib, urllib2, httplib, httplib2和正则表达式(python3中为urllib.request, http.client) 2. 数据准备和整理 3. 数据显示 4. 数据选择 4.1 选择行 4.1.1 索引 ...
分类:
编程语言 时间:
2017-01-21 18:33:33
阅读次数:
210
1 import urllib2 2 from StringIO import StringIO 3 import gzip 4 5 def loadData(url): 6 request = urllib2.Request(url) 7 request.add_header('Accept-en ...
分类:
编程语言 时间:
2017-01-21 11:44:54
阅读次数:
257
1. 便捷数据获取 1.1 本地数据获取:文件的打开,读写和关闭(另外的单独章节) 1.2 网络数据获取: 1.2.1 urllib, urllib2, httplib, httplib2 (python3中为urllib.request, http.client) 正则表达式(另外的单数章节) 1 ...
分类:
编程语言 时间:
2017-01-20 19:04:06
阅读次数:
277