码迷,mamicode.com
首页 > Web开发 > 详细

php抓取中文字符

时间:2015-07-29 17:12:26      阅读:161      评论:0      收藏:0      [点我收藏+]

标签:php

抓取中文的来源可以是文本,网页,只要是有中文的地方就行,每个部分都有注释,里面包含中文的抓取和中文去重两部分。


 <?php
$str = "ddddvvv(,中文.)dfdsfds字啊 啊符啊.";

//把GB2312编码转化为 UTF-8编码
//$str = mb_convert_encoding($str, 'UTF-8', 'GB2312');

//正则匹配
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str, $matches);

//把匹配到的数组连接为字符串
$str = implode('', $matches[0]);

//中文字符去重
$str = str_split($str,3);
$str = array_unique($str);
$str = implode($str);

//把UTF-8编码转化为 GB2312编码
$str = mb_convert_encoding($str, 'GB2312', 'UTF-8'); 

echo $str; 
?>


版权声明:本文为博主原创文章,未经博主允许不得转载。

php抓取中文字符

标签:php

原文地址:http://blog.csdn.net/qq_20480611/article/details/47130383

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!