老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序。需求:某网的商品信息,包括商品名,市场价和售价工具:python2.7.8,urllib2,re#coding = utf-8import urllib2import repath = "aaa.txt"f = ...
分类:
编程语言 时间:
2014-11-27 06:46:13
阅读次数:
124
webspider.pypython 抓取每日一文文章import urllib2# get webpageheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chr...
分类:
Web程序 时间:
2014-11-25 10:39:08
阅读次数:
179
主要给出两个版本,一个是通过urllib实现的,另一个是通过urllib2实现的,此为第二种,代码及实例如下:>>> import urllib2>>> from urllib2 import *>>> webUrl = "http://www.baidu.com">>> doc = urllib2...
分类:
编程语言 时间:
2014-11-24 18:51:00
阅读次数:
200
1、How to force urllib2 not to use a proxyHere is an example to remove proxy settings for all requests:proxy_handler = urllib2.ProxyHandler({})opener =...
分类:
编程语言 时间:
2014-11-24 11:23:32
阅读次数:
180
网站选择桌面壁纸网站的汽车主题:
下面的两个print在调试时打开
#print tag
#print attrs
#!/usr/bin/env python
import re
import urllib2
import HTMLParser
base = "http://desk.zol.com.cn"
path = '/home/mk/cars/'
star = ''
def get_...
分类:
编程语言 时间:
2014-11-16 23:07:13
阅读次数:
387
用Python编一个抓网页的程序是非常快的,下面就是一个例子:import urllib2 html = urllib2.urlopen('http://blog.raphaelzhang.com').read()但是在实际工作中,这种写法是远远不够的,至少会遇到下面几个问题:网络会出错,任何错误都...
分类:
编程语言 时间:
2014-11-15 16:44:29
阅读次数:
535
现在经常需要在网页中获取相关内容。其中无非获取网页返回状态,以及查看网页获取的内容几个方面,那么在这方面来看requests可能比urllib2库更简便一些。比如:先用方法获取网页r = requests.get("http://www.baidu.com")#查看返回码r.status_code#...
分类:
编程语言 时间:
2014-11-13 00:21:11
阅读次数:
260
好久没写博文了,今日正好不忙,看到同学用iisputscan批量扫ip呢,可是扫到ip之后要去一个一个点击,看看是否可进行访问,极其麻烦,于是写了个判断url状态码的小程序,原理很简单,从文件中读取ip,修改成http://ip:port格式,之后调用urllib2,判断可否访问,看代码:#coding..
分类:
编程语言 时间:
2014-11-12 11:57:02
阅读次数:
194
转自 http://www.qianduan.net/essential-to-sublime-the-text-2-plugins.htmlimport urllib2,os;pf='Package Control.sublime-package';ipp=sublime.installed_pa...
分类:
其他好文 时间:
2014-11-08 16:34:48
阅读次数:
146
安装1.在官网下载安装。2.按Ctrl+`调出console,输入import urllib2,os;pf='Package Control.sublime-package';ipp=sublime.installed_packages_path();os.makedirs(ipp) if not ...
分类:
其他好文 时间:
2014-11-06 21:47:42
阅读次数:
189