码迷,mamicode.com
首页 > 其他好文 > 详细

TODO:字节的那点事Go篇

时间:2016-12-06 04:33:18      阅读:169      评论:0      收藏:0      [点我收藏+]

标签:golang string byte rune

TODO:字节的那点事Go篇

技术分享

(本文go version go1.7.3 darwin/amd64)

在Golang中string底层是由byte数组组成的。

fmt.Println(len(“dsd好”))

输出的长度是6

fmt.Println(len(string(rune(‘好’))))

输出的长度是3

fmt.Println(len([]rune(“好的2s”)))

输出的长度是4

所以用string存储unicode的话,如果有中文(中文是由3个字节组成

),按下标是访问不到的,因为你只能得到一个byte。 要想访问中文的话,还是要用rune切片,这样就能按下标访问。

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到4个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。

为什么要做UTF-8转码?很大语言直接支持UTF-8,部分语言存储字符串到内存时直接使用 UTF-8编码。UTF-8是一个通用解决方案,一直有人维护。例如Golang语言就直接支持UTF-8。

接下来我们来看看Golang是怎么处理UTF-8转码,如图

技术分享

输出:

技术分享

为什么fmt.Println(StrToByte(“國”))输出[11]呢?由先了解到byte到范围是0~256,22283对256取余为11。

在Golang中就是这样使用UTF-8,你是否注意到其中到使用细节呢。


wxgzh:ludong86

技术分享


本文出自 “计算机语言驱动数据” 博客,请务必保留此出处http://onetodo.blog.51cto.com/12321875/1879770

TODO:字节的那点事Go篇

标签:golang string byte rune

原文地址:http://onetodo.blog.51cto.com/12321875/1879770

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!