标签:
1. 字符基础: ASCII, MBCS/DBCS, Unicode
有3种编码模式,并对应3种字符类型。
(1)单字节字符集(single-byte character set (SBCS)).
-在这种编码模式下,所有的字符都只用一个字节(Byte)标示。
-ASCII是SBCS,用一个字节标示为‘\0‘的来标识SBCS字符串的结束
-单字节字符包含拉丁文字母表,accented characters及ASCII标准和DOS操作系统定义的图形字符。
例如"Hi!"是如下存放的. (1Byte存放数值范围: 00 ~ FF (16进制))
┌─────────────────────────────┐
Size 1Byte 1Byte 1Byte 1Byte
Memory Content(Hex) 48 69 21 00
Charactor H i !
└─────────────────────────────┘
(2)多字节字符集(multi-bye character set (MBCS)).
-在Windows中MBCS包含两种字符类型,单字节字符和双字节字符.由于windows使用的多字节字符绝大部分是两个字节长,所以MBCS常被DBCS代替.
-在DBCS编码模式中,一些特定的值被保留用来表明他们是双字节字符的一部分。
例如,在Shift-JIS编码中(一个常用的日文编码模式),0x81-0x9f之间和 0xe0-oxfc之间的值表示"这是一个双字节字符,下一个子节是这个字符的一部分。"这样的值被称作"leading bytes",他们都大于0x7f。跟随在一个leading byte子节后面的字节被称作"trail byte"。在DBCS中,trail byte可以是任意非0值。像SBCS一样,DBCS字符串的结束标志也是一个单字节表示的0。
-双字节字符被用来表示东亚及中东的语言。
┌────────────────────────────┐
Size 2Byte 2Byte 2Byte 1Byte
Memory Content(Hex) C4 E3 BA C3 A3 A1 00
Charactor 你 好 !
└────────────────────────────┘
(3)Unicode。
-Unicode是一种所有的字符都使用两个字节编码的编码模式。Unicode字符有时也被称作宽字符,因为它比单子节字符宽(使用了更多的存储空间)。
-注意,Unicode不能被看作MBCS。MBCS的独特之处在于它的字符使用不同长度的字节编码。Unicode字符串使用两个字节表示的0作为它的结束标志。
-Unicode被用在COM及Windows NT操作系统内部。
┌───────────────────────────────┐
Size 2Byte 2Byte 2Byte 2Byte 2Byte
Memory Content(Hex) FF FE 48 00 69 00 21 00 00 00
Charactor H i !
└───────────────────────────────┘
FF FE 标示 Unicode 采用的是小头方式. (little endian, 第二个(低位)字节在前)
如果是FE FF 则表示为大头方式. ( big endian unicode ) H 的存储为 00 48;
当使用char时,处理的是单字节字符。双字节字符也用char类型来进行操作(这是我们将会看到的关于双子节字符的很多奇怪的地方之一)。Unicode字符用wchar_t来表示。Unicode字符和字符串常量用前缀L来表示。例如:
2. C语言中, 没有字符串的数据类型,使用一个以NULL(‘\0‘)字符结尾的字符数组来保存字符串。
声明:
操作:
3. 标准 C++ 的字符串数据类型是 string 类. (需要包含头文件<string> 或 <string.h>)
申明:
操作:
字符串函数:
串长度: int strlen(char *str)
串拷贝: char *strcpy(char *targetStr,char *orignalStr);
串连接: char *strcat(char *str1,char *str2)
串比较: int strcmp(char *str1,char *str2) //比较的是字符的ASCII码, str1>str2 返回1, 相等为0
串定位: char *strchr(char *str,char ch) //找到返回字符在字符串中的位置,否则返回-1;
4. CString 类 是Visual C++中最常用的字符串类,继承自CSimpleStringT类,主要应用在MFC和ATL编程中
声明:
在操作字符串 CString类之前,先了解Windows字符的类型.
┌──────────────────────────────┐
类型 MBCS 中含义 Unicode 中含义
TCHAR char wchar_t
WCHAR wchar_t wchar_t
LPSTR char* char*
LPCSTR const char* const char*
LPWSTR wchar_t* wchar_t*
LPCWSTR const wchar_t* const wchar_t*
LPTSTR TCHAR* TCHAR*
LPCTSTR const TCHAR* const TCHAR*
char 标准c的字符类型(1Byte)
wchar_t 保存UNICODE字符集的类型(2Byte)
└──────────────────────────────┘
TCHAR的定义如下:
再了解一个宏_T(),使用宏_T(),使代码有了unicode的意识。
##是一个预处理操作符,它可以把两个参数连在一起.
操作:
标签:
原文地址:http://www.cnblogs.com/lx-hhxxttxs/p/4661750.html