标签:模式 gbk cap flags 正则 字节 php alt 偏移量
问: php里如何将一个字符串分割为组成它的字符?
比如hello -> [h, e, l, l, o] 以下有三种方法:
这是需要被分割的字符串: $str = ‘Hello小样‘;
字符串的长度:
$len = mb_strlen($str, ‘utf8‘);// 7
第一种:
$arr = str_split($str); p($arr);
[总结]: 这里直接使用str_split 方法来分割, 但不幸的是这个方法不支持中文的解析, 这里可以考虑下mb_split的分割, 而这里为什么[小样]二字会被分割成六个乱码呢? 这里应该是utf8作怪, utf8中一个汉字占3个字节, GBK和GB2312中的一个汉字占2个字节
第二种:
$arr = preg_split("//u", $str, -1, PREG_SPLIT_NO_EMPTY); P($arr);
[总结]: 这里使用了正则来分割字符
preg_split(pattern, subject, limit, flags)
pattern:用于搜索的模式,字符串形式;
subject: 输入的字符串;
limit: 限制多少个字符, -1|0|null表示不限制
flags: PREG_SPLIT_NO_EMPTY(返回分隔后的非空部分[常用])
PREG_SPLIT_DELIM_CAPTURE(用于分隔的模式中的括号表达式将被捕获并返回)
PREG_SPLIT_OFFSET_CAPTURE(对于每一个出现的匹配返回时将会附加字符串偏移量)
第三种:
$len = mb_strlen($str, ‘utf8‘); $tmp = []; for ($i = 0;$i < $len;$i++) { $tmp[] = $str[$i]; } p($tmp);
[总结]: 用循环来切割字符串, 首先获取该字符串的长度, 然后for循环, 这里最后的未知字符是因为$len = 7,所以循环7次, 不同于第一种方法的utf8字符错乱问题
标签:模式 gbk cap flags 正则 字节 php alt 偏移量
原文地址:http://www.cnblogs.com/wherein/p/6873489.html