#coding:gbkimport sys,reimport urllib.request#from bs4 import BeautifulSoupdef getId(url,i): postdata = urllib.parse.urlencode({'currentPage': i}) ...
分类:
其他好文 时间:
2015-03-18 23:08:29
阅读次数:
187
今天接到一个web的同事求助,他本来通过java抓取一个web页面的内容,但是发现抓取得都是些乱码,然后又尝试用 python的urllib来获取,依然是乱码,不过在浏览器访问却是正常的json格式数据。 首先,我先用curl获取了下这个web,发现确实是一些不可见的字符,把它保存下来。 再...
分类:
编程语言 时间:
2015-03-18 13:52:26
阅读次数:
141
文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现;后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识。由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助。
一.维基百科和Infobox
Infobox究竟是个什么东西呢?维基百科作为目前规模最大和增长最快的开放式的在线百...同时讲述了正则表达式等相关知识。...
分类:
编程语言 时间:
2015-03-18 06:28:14
阅读次数:
219
安装package control Ctrl+~调出console,输入 import urllib.request,os; pf = ‘Package Control.sublime-package‘; ipp = sublime.installed_packages_path(); urllib.request.install_opener( urllib.request...
分类:
其他好文 时间:
2015-03-17 14:28:37
阅读次数:
128
import ssl
import json
from PIL import Image
import urllib
import re
import urllib.request as urllib2
if hasattr(ssl, '_create_unverified_context'):
ssl.create_default_context = ssl._create_unveri...
分类:
编程语言 时间:
2015-03-17 12:27:48
阅读次数:
172
# -*- coding: UTF-8 -*-import urllibrawdata=urllib.urlopen("http://open.lewei50.com/").read()print rawdata # -*- coding: UTF-8 -*-import urllibrawdat....
分类:
其他好文 时间:
2015-03-17 01:59:54
阅读次数:
132
httplib2爬虫:从某个网站上下载一个网页,并在自己的主机上自动打开浏览器浏览。copy网上的代码,运行提示,***函数没有定义,可能是因为没有下载其使用的第三方函数库并安装linux下安装第三方函数库easy_installhttplib2eg:>>>importurllib---------urllib可以访问..
分类:
Web程序 时间:
2015-03-16 11:16:53
阅读次数:
142
#-*- coding:UTF-8 -*-import urllib,urllib2,cookielibimport xml.etree.ElementTree as etree#xml解析类class Login163:#伪装browser header = {'User-Agent':'Mozi...
分类:
编程语言 时间:
2015-03-14 21:33:52
阅读次数:
174
搬运自http://www.2cto.com/kf/201309/242273.html,感谢原作。之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求。但是服务器并不知道发送这个请求使用的浏览器,操作系...
分类:
编程语言 时间:
2015-03-14 10:50:55
阅读次数:
170
import timeimport leveldbfrom urllib.parse import quote_plus import reimport jsonimport itertoolsimport sysimport requestsfrom queue import Queuefrom ...
分类:
编程语言 时间:
2015-03-12 15:02:01
阅读次数:
1056