TODO：字节的那点事Go篇

时间：2016-12-06 04:33:18 阅读：169 评论：0 收藏：0 [点我收藏+]

标签：golang string byte rune

TODO：字节的那点事Go篇

技术分享

（本文go version go1.7.3 darwin/amd64）

在Golang中string底层是由byte数组组成的。

fmt.Println(len(“dsd好”))

输出的长度是6

fmt.Println(len(string(rune(‘好’))))

输出的长度是3

fmt.Println(len([]rune(“好的2s”)))

输出的长度是4

所以用string存储unicode的话，如果有中文(中文是由3个字节组成

)，按下标是访问不到的，因为你只能得到一个byte。要想访问中文的话，还是要用rune切片，这样就能按下标访问。

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到4个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言（如英文，日文，韩文）。

为什么要做UTF-8转码？很大语言直接支持UTF-8，部分语言存储字符串到内存时直接使用 UTF-8编码。UTF-8是一个通用解决方案，一直有人维护。例如Golang语言就直接支持UTF-8。

接下来我们来看看Golang是怎么处理UTF-8转码，如图

技术分享