为了方便, 使用chinaunix的账户获取账户主题. 有些网站可能需要验证码, 找一些不用验证码的网站下面 ****** 很多个星号的均为私密信息, 所以用星号代替#!/usr/bin/python# -*- encoding:utf-8 -*-import urllibimport urllib...
分类:
编程语言 时间:
2015-04-04 16:27:43
阅读次数:
163
判断字符串编码使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要>>> import urllib>>> html = urllib.urlopen('http://www.ch...
分类:
编程语言 时间:
2015-04-04 14:58:33
阅读次数:
234
Package Control:Sublime Text编辑器的插件管理工具,利用此工具可以非常方便的实现插件的安装与卸载,无需繁复的操作。 1、使用快捷键【Ctrl+`】调出Sublime Text 的命令行。 2、复制粘贴以下命令:import urllib.request,os;...
分类:
其他好文 时间:
2015-04-01 15:14:43
阅读次数:
107
利用python抓取网络图片的步骤:
1.根据给定的网址获取网页源代码
2.利用正则表达式把源代码中的图片地址过滤出来
3.根据过滤出来的图片地址下载网络图片
import urllib
import re
import os
#urllib,r...
分类:
编程语言 时间:
2015-04-01 09:37:09
阅读次数:
171
我们常常需要下载网页上很多喜欢的图片,但是面对几十甚至上百张的图片,一个一个去另存为肯定是个很差的体验。我们可以用urllib包获取html的源码,再以正则表达式把匹配的图片链接放入一个list中,使用for循环来依次下载list中的链接。import reimport urlliba = raw_...
分类:
编程语言 时间:
2015-03-30 17:56:29
阅读次数:
211
Python标准库 osPython标准库 urllib
分类:
编程语言 时间:
2015-03-30 16:15:55
阅读次数:
111
###百度API实现 ##Step1:申请API Key >>以前用过BAE,已经有了Api Key,没有的可以去申请 ##Step2:挺简单,直接看实现的代码吧 >>···python #coding:utf-8 import urllib2 import urllib import json #采用g...
分类:
编程语言 时间:
2015-03-29 09:33:42
阅读次数:
169
最近在广告投放时需要找到一批强项关的人群, 现在发现了指定的一些URL可能会跟给广告相关,所以需要对每个URL 的网页内容进行解析,以便能判断URL 是否与该广告相关.
我这里使用python中的urllib或urllib包对URL 的内容提取.方法如下:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
u...
分类:
Web程序 时间:
2015-03-29 01:56:23
阅读次数:
229
python爬虫Pragmatic系列III
说明:
在上一篇博客中,我们已经学会了从赶集网上的一家公司中提取出有关的信息,并存储到Excel中。
本次目标:
在本节中,我们将批量下载赶集首页上所有的公司界面(注意不是赶集网上所有的公司页面,我们可以把这个留给之后的任务),并批量的处理所有公司的有关信息,并保存到Excel中。
注意:
在上一篇博客中,我们使...
分类:
编程语言 时间:
2015-03-28 23:18:24
阅读次数:
441
importurllib.request,os;pf=‘PackageControl.sublime-package‘;ipp=sublime.installed_packages_path();urllib.request.install_opener(urllib.request.build_opener(urllib.request.ProxyHandler()));open(os.path.join(ipp,pf),‘wb‘).write(urllib.request.urlopen(‘http://..
分类:
其他好文 时间:
2015-03-21 21:27:34
阅读次数:
201