1. chardet模块 Python在处理字符串问题,常常会遇到字符串编码的问题。chardet是一个非常优秀的编码识别模块。
能够识别的格式有:
ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants)
Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simp...
分类:
编程语言 时间:
2015-04-09 09:07:14
阅读次数:
1112
数据库编码数据库使用一个特点编码保存数据,如latin、Big5、GB2312、UTF8等,不同语言一般使用不同编码保存编码主要影响以下两个方面:1;数据库保存相同内容所占用的空间大校2;数据库与客户端通信mysql数据库的默认编码是:chrarcterset:latin1collation:latin1_swedish_ci..
分类:
数据库 时间:
2015-03-18 18:26:18
阅读次数:
262
原因:这是由于IE解析网页编码时以HTML内的标签优先,而后才是HTTP header内的讯息;而mozilla系列的浏览器则刚刚相反。由于UTF-8为3个字节表示一个汉子,而普通的GB2312或BIG5是两个。页面输出时,由于上述原因,使浏览器解析、输出的内容时,如果在前有奇数个全角字符时,IE把...
分类:
Web程序 时间:
2015-03-11 21:21:04
阅读次数:
321
1、NLPIR简介
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。
下载地址:http://ictclas.nlpir.org/downloads
2、目录介绍
...
分类:
编程语言 时间:
2015-03-10 15:35:18
阅读次数:
676
国内的专业Linux网站(GB)
ChinaUnix
Linux中国
实验楼: 免费提供了Linux在线实验环境,不用在自己机子上装系统也可以学习Linux,超方便实用!。
国内的专业Linux网站(BIG5)
香港Linux用户协会:了解香港Linux的好网站。
Linux@Taiwan:台湾的Linux爱好者组织,CLDP的家,列有翻译的Linux HOWTO 中文版。
Chinese Linu...
分类:
系统相关 时间:
2015-03-06 15:59:42
阅读次数:
180
数据表示方式数字系统本质即二进制与十进制的相互转换。文字编码系统常用的英文编码表为ASCII系统,这个编码系统中,每个符号(英文,数字或符号等)都会占用1B的记录。
中文当中的编码系统最常用的是big5(简体是GB2312)编码表。每个中文字符占用2B。
为了解决某些生僻字被识别成乱码的问题,由国际组织ISO/IEC指定了所谓的Unicode编码系统,即UTF8或统一码,从而打破了所有国家的不同...
分类:
其他好文 时间:
2015-02-21 19:57:02
阅读次数:
198
看了好久的文章,终于较为清楚编码问题了,下面是总结1、中文编码常见的有:简体-->GB系列(GB2312,GB2312-80,GB10830);繁体-->BIG5;还有万国码UTF-82、UTF-8并不是编码规范,而是Unicode(===UCS,另一组相同的编码名称)的实现方式,还有UTF-16,...
分类:
其他好文 时间:
2015-02-13 11:35:45
阅读次数:
143
弟管理學校的網頁伺服器,該伺服器也同時是大家的分享檔案集散中心,是以Linux架設起來的,該伺服器以 Unicode 作為系統編碼,而其他Windows系統則是big5(MS950)編碼,最近我要讓另一台 Linux 的主機(Unicode)掛載該伺服器所分享的檔案,編碼轉換的問題讓我頭痛了一個禮拜...
分类:
其他好文 时间:
2015-02-13 11:30:02
阅读次数:
285
第一部分:编码基础
为什么需要编码:用计算机看得懂的语言(二进制数)表示各种各样的字符。
一、基本概念
ASCII、Unicode、big5、GBK等为字符集,它们只定义了这个字符集内有哪些字符,以及分别用什么数字表示。
而UTF-8与UTF-16则定义了Unicode字符集如何使用计算机看得懂的语言进行传输和保存。
例如: Unicode 字符 U+00A9 = 1010 10...
分类:
编程语言 时间:
2015-02-11 16:43:26
阅读次数:
302
一、概述
为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如:汉字 '中' 在中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。
二、编码格式分类
1、ansi编码
不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用2 个字节来代表一个字符的各种汉字延伸编码方...
分类:
其他好文 时间:
2015-01-30 17:49:52
阅读次数:
197