Delphi与字符编码（实战篇）（MultiByteToWideChar会返回转换后的宽字符串长度）

时间：2016-07-05 20:30:55 阅读：657 评论：0 收藏：0 [点我收藏+]

标签：

本文目标：

了解Delphi的字符串类型
字符编码的检测与转换
简体繁体转换

0. 导言

看完“.Net与字符编码（理论篇）”，我们明白了字符是自然语言中的最小单位，在存储和传输的过程中可以使用三种编码方法：ASCII、DBCS以及Unicode。常见的DBCS编码有GB2312、GBK和BIG5，而UTF-8、UTF-16和UTF-32则是最常用的Unicode编码类型。

1. 字符串类型

在Delphi中有两种字符串类型：AnsiString和WideString。AnsiString被称为“长字符串”(Long String)；WideString则叫做“宽字符串”（Unicode String），它和COM String (BSTR)兼容。它们都是由程序在堆(Heap)上分配的并自动管理内存的分配和释放。目前在Win32平台上，string类型等同于AnsiString。AnsiString还可以理解成字节序列，它支持单字节字符编码(SBCS)、多字节字符编码(MBCS/DBCS)以及UTF-8编码。而WideString使用UTF-16编码，完美支持Unicode。

为了说明字符和字节的区别，我们来看一个计算字符个数的例子：

// 假设当前系统页为CP936(GBK 1.0)
技术分享

procedure TestAnsiLength;
技术分享

var

str: string;
技术分享

begin

str := ‘汉字ABC‘;
技术分享

Assert(Length(str) = 7); // 7个字节
技术分享

Assert(AnsiLength(str) = 5); // 5个字符
技术分享

end;

下面是AnsiLength的两种实现：

// uses SysUtils;
技术分享

function AnsiLength(const s: string): integer;
技术分享

var

p, q: PChar;
技术分享

begin

Result := 0;
技术分享

p := PChar(s);
技术分享

q := p + Length(s);
技术分享

while p < q do
技术分享

begin

Inc(Result);
技术分享

if p^ in LeadBytes then // 当前系统代码页的前导字节数组
技术分享

Inc(p, 2)

else

Inc(p);

end;

// uses Windows;
技术分享

function AnsiLength(const s: string): Integer;
技术分享

begin

Result := MultiByteToWideChar(CP_ACP, 0, PAnsiChar(s), -1, nil, 0);
技术分享

if Result > 0 then Dec(Result); // 除去终止符
技术分享

end;

如果理解了.Net与字符编码（理论篇）中的编码知识，上面的例子还是很简单的。

2. 字符编码的检测与转换

“工欲善其事，必先利其器”，我先向大家推荐一些工具：

JCL (JEDI Code Library)
Virtual TreeView
Tnt Controls or TMS Unicode Component Pack

定义基本的类型：

{ 编码类型 }

TEncodingType = (
技术分享

etAnsi, // ANSI format (SBCS/DBCS)
技术分享

etUTF8, // UTF-8 format
技术分享

etUnicode, // UTF-16 format using little endian
技术分享

etUnicodeBE, // UTF-16 format using big endian
技术分享

etUTF32, // UTF-32 format using little endian
技术分享

etUTF32BE // UTF-32 format using big endian
技术分享

);

{ 字节顺序标记 }
技术分享

TByteOrderMask = array of Byte;
技术分享

获得不同编码类型的BOM：

CopyBytes

function TryGetBOM(const encodingType: TEncodingType; var bom: TByteOrderMask): Boolean;
技术分享

begin

Result := True;
技术分享

case encodingType of
技术分享

etUTF8: CopyBytes(BOM_Utf8, bom);
技术分享

etUnicode: CopyBytes(BOM_UTF16_LSB, bom);
技术分享

etUnicodeBE: CopyBytes(BOM_UTF16_MSB, bom);
技术分享

etUTF32: CopyBytes(BOM_UTF32_LSB, bom);
技术分享

etUTF32BE: CopyBytes(BOM_UTF32_MSB, bom);
技术分享

else

begin

SetLength(bom, 0);
技术分享

Result := False;
技术分享

end;

检测字符编码类型：

CompareBOM

function DetectEncoding(buffer: PAnsiChar): TEncodingType; overload;
技术分享

begin

if CompareBOM(buffer, BOM_UTF8) then
技术分享

Result := etUTF8
技术分享

else if CompareBOM(buffer, BOM_UTF16_LSB) then
技术分享

Result := etUnicode
技术分享

else if CompareBOM(buffer, BOM_UTF16_MSB) then
技术分享

Result := etUnicodeBE
技术分享

else if CompareBOM(buffer, BOM_UTF32_LSB) then
技术分享

Result := etUTF32
技术分享

else if CompareBOM(buffer, BOM_UTF32_MSB) then
技术分享

Result := etUTF32BE
技术分享

else

Result := etAnsi;
技术分享

end;

function DetectEncoding(stream: TStream): TEncodingType; overload;
技术分享

var

pos: Int64;
技术分享

bytes: TByteOrderMask;
技术分享

begin

SetLength(bytes, 6);
技术分享

ZeroMemory(@bytes[0], Length(bytes));
技术分享

pos := stream.Seek(0, soFromCurrent);
技术分享

stream.Seek(0, soFromBeginning);
技术分享

stream.Read(bytes[0], SizeOf(bytes));
技术分享

stream.Seek(pos, soFromBeginning);
技术分享

Result := DetectEncoding(PAnsiChar(@bytes[0]));
技术分享

end;

下面的方法演示了如何用不同的编码类型来保存文本：

procedure WriteText(stream: TStream; const buffer: WideString;
技术分享

const encodingType: TEncodingType; withBom: Boolean = False);
技术分享

var

s: AnsiString;
技术分享

p: PAnsiChar;
技术分享

bom: TByteOrderMask;
技术分享

bytes: Integer;
技术分享

begin

p := nil;

bytes := Length(buffer) * SizeOf(WideChar);
技术分享

if withBom and TryGetBOM(encodingType, bom) then
技术分享

begin

stream.Write(bom[0], Length(bom));
技术分享

end;

case encodingType of
技术分享

etAnsi:

begin

p := PAnsiChar(buffer);
技术分享

bytes := Length(buffer);
技术分享

end;

etUTF8:

begin

s := Utf8Encode(buffer);
技术分享

p := PAnsiChar(s);
技术分享

bytes := Length(s);
技术分享

end;

etUnicode:
技术分享

begin

p := PAnsiChar(PWideChar(buffer));
技术分享

end;

etUnicodeBE:
技术分享

begin

StrSwapByteOrder(PWideChar(buffer));
技术分享

p := PAnsiChar(PWideChar(buffer));
技术分享

end;

else // 留给读者去实现
技术分享

begin

raise Exception.Create(‘Not Implemented.‘);
技术分享

end;

stream.Write(p^, bytes);
技术分享

end;

需要说明的是，如果把这些过程封装成对象的话，结构会更清晰。

3. 简体繁体转换

简体繁体转换包括简转繁和繁转简两种情况，其原理是利用查找字符编码映射表来查找相应的字符。网上有一个“利用编码对照表完成内码转换和简繁体转换的单元”就是基于这个原理写的，在这里就暂不详述了。

{ TODO: 采用OOP来封装字符编码模块，并提供下载 }
{ TODO: 研究简体繁体转换 }

参考文章

Determining the actual length of a DBCS string

http://www.cnblogs.com/baoquan/articles/1027371.html

Delphi与字符编码（实战篇）（MultiByteToWideChar会返回转换后的宽字符串长度）

标签：

原文地址：http://www.cnblogs.com/findumars/p/5644804.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行