用正则表达式匹配汉字，完整总结

时间：2016-04-25 22:29:47 阅读：1264 评论：0 收藏：0 [点我收藏+]

标签：

提到用正则表达式匹配汉字，很容易搜到这个[\u4e00-\u9fa5]，但是它不算全面，不包含一些生僻汉字。

本文对此问题做一个梳理。

以下是比较全面的汉字Unicode分布，截止Unicode 8.0标准（2015年6月）：

如果想表示最普遍的汉字，用：

[\u4E00-\u9FFF]

如果想表示BMP之内的汉字，也就是Unicode值<=0xFFFF，用：

[\u4E00-\u9FFF\u3400-\u4DBF\uF900-\uFAFF]

这个包含但不限于GBK定义的汉字

如果想表示尽可能所有的汉字，用：

[\u4E00-\u9FFF\u3400-\u4DBF\uF900-\uFAFF\U00020000-\U0002CEAF]

这个包含上表的8万多个汉字

说明：

1, 以上正则表达式不会匹配（英文、汉字的）标点符号。

2, 包含了一些没有汉字的空位置，这个无所谓。

3, 在Python 3.5上测试通过。

标签：

原文地址：http://www.cnblogs.com/animalize/p/5432864.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行