1. chardet模块 Python在处理字符串问题,常常会遇到字符串编码的问题。chardet是一个非常优秀的编码识别模块。
能够识别的格式有:
ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants)
Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simp...
分类:
编程语言 时间:
2015-04-09 09:07:14
阅读次数:
1112
判断字符串编码使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要>>> import urllib>>> html = urllib.urlopen('http://www.ch...
分类:
编程语言 时间:
2015-04-04 14:58:33
阅读次数:
234
# -*- coding=utf-8 -*-
import urllib2
from BeautifulSoup import BeautifulSoup as bs3
import json
import codecs
#字符检测,用来检测其真实的编码格式
import chardet
#save content to file
def save_to_file(filename, co...
分类:
Web程序 时间:
2015-02-14 23:51:34
阅读次数:
333
以汽车之家为例子,抓取页面并进行解析
# -*- coding=utf-8 -*-
import urllib2
from BeautifulSoup import BeautifulSoup as bs3
import json
import codecs
#字符检测,用来检测其真实的编码格式
import chardet
#save content to file
def save_...
分类:
其他好文 时间:
2015-02-14 17:35:13
阅读次数:
178
?# encoding: utf-8 import os import re import subprocess import sys import chardet import scrapy from scrapy.http import Request from scrapy.selector ...
分类:
Web程序 时间:
2015-02-12 09:14:04
阅读次数:
205
# encoding: utf-8 ''' Created on 2015年2月8日 @author: 张鹏程 aprial@163.com @copyright: 版权所有, 尊重劳动成功, 转载与修改请注明作者 ''' import traceback import chardet def my...
分类:
编程语言 时间:
2015-02-09 22:53:18
阅读次数:
273
# -*- coding: utf-8 -*- import scrapy import chardet from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.ut...
分类:
其他好文 时间:
2015-01-14 09:39:24
阅读次数:
148
电脑配置:联想笔记本电脑 windows8系统Python版本:2.7.8本文章撰写时间:2014.12.25作者:陈东陈阅读说明:1.本文都是先解释,后放图片;2.文中斜体部分要么为需要输入的内容,要么为电脑本来的一些功能名称如果没有安装chardet模块,需要先安装该模块。总结:中文字符在pyt...
分类:
编程语言 时间:
2014-12-25 17:41:44
阅读次数:
342
最近在使用chardet检查网页编码格式时发现如下问题:用urllib打开网页再检查编码格式和用urllib2打开网页检查编码格式结果不一样,所以urllib2打开可能导致问题,需要注意。使用urllib2打开网页,检查编码格式:结果如下,结果中出现了新浪网的字符编码格式为None的情况:但如果使用...
分类:
编程语言 时间:
2014-11-29 15:49:02
阅读次数:
184
刚才添加一个chardet模块,安装后IDE可引用,使用正常,但在Eclipse中import chardet报错。解决方法:在Eclipse的window->preference->PyDev->Interpreter-Python中,libraries标签下,点击New Egg/Zip(s),然...
分类:
编程语言 时间:
2014-09-23 20:28:35
阅读次数:
169