php 空格无法替换，utf-8空格惹的祸

时间：2014-11-28 14:09:25 阅读：214 评论：0 收藏：0 [点我收藏+]

一次坑爹的小bug。读取一段文字(编码utf-8)，想替换掉空格，str_replace(" "..)、preg_replace("/\s/"..)都不起作用。

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(" ", "-", $str);
$str = preg_replace("/\s/", "-", $str);
echo $str;  // 不起作用

　　没办法，将替换不了的空格ord()下才看到，这个utf-8空格比较特殊。ASCII 194 + 160出来的。

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(chr(194) . chr(160), "-", $str);  // 解决方法
echo $str;  // OK

　　实验下这个空格。

<?php

// utf-8无bom文件下，四个空格
$s1 = chr(194) . chr(160);
$s2 = chr(32);
$s3 = " ";
$s4 = "　";  // 全角空格
$s = $s1 . $s2 . $s3 . $s4;

// 判断
$r  = ‘‘;
if ($s1 == $s2) $r .= 1;
if ($s1 == $s3) $r .= 2;
if ($s1 == $s4) $r .= 3;
if ($s2 == $s3) $r .= 4;
if ($s2 == $s4) $r .= 5;
if ($s3 == $s4) $r .= 6;

// 结果
echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/\s/", "-", $s);

　　结果：为方便书写，|代表空格，|代表全角空格。

　　||||####4####|--|####|--|

　　改下浏览器编码为gbk，结果：聽銆€#####4####聽--銆€####聽--銆€

　　问题的根源，在于UTF-8这种编码里面，存在一个特殊的字符，其编码是“0xC2 0xA0”(194 160)，转换成字符的时候，表现为一个空格，跟一般的半角空格（ASCII 0x20）一样，唯一的不同是它的宽度不会被压缩，因此比较多的被用于网页排版（如首行缩进之类）。而其他的编码方式如GB2312、Unicode之类并没有这样的字符。

　　总结下来就是：替换不了的字符，打印出ASCII码来总能替换掉吧。

参考：解决采集UTF-8网页空格变成问号乱码诡异的UTF8空格

php 空格无法替换，utf-8空格惹的祸

标签：blog http ar os sp strong 文件 on div

原文地址：http://www.cnblogs.com/oldphper/p/4128138.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行