文本处理基础1.正则表达式(Regular Expressions)正则表达式是重要的文本预处理工具。
以下截取了部分正则写法:
2.分词(Word tokenization)
我们在进行每一次文本处理时都要对文本进行统一标准化(text normalization)处理。文本规模 How many words?
我们引入变量Type和Token
分别代表词典中的元素(an...
分类:
编程语言 时间:
2015-08-26 20:14:22
阅读次数:
196
RE 字符
意义与范例
^word
意义:待搜寻的字串(word)在行首!
范例:搜寻行首为 # 开始的那一行,并列出行号
grep -n '^#' regular_express.txt
word$
意义:待搜寻的字串(word)在行尾!
范例:将行尾为 ! 的那一行列印出来,并列出行号
grep -n '!$' regular_express.tx...
分类:
系统相关 时间:
2015-08-07 16:09:20
阅读次数:
171
正则表达式通过一些特殊符号的帮助,使用户可以轻松快捷的完成查找、删除、替换等处理程序。正则表示法基本上是一种表示法,只要工具程序支持这种表示法,该工具程序就可以用来作为正规表示法的字符串处理只用。 正则表达式特殊符号 [:alnum:] 匹配所有大写字母和数字 [:alpah:] 匹配所有字母...
分类:
其他好文 时间:
2015-08-07 12:42:44
阅读次数:
77
正则表达式(Regular Expression,常简写为regex、regexp或RE):又称正规表达式,正规表示法,正规表达式,规则表达式,常规表示法。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。....
分类:
其他好文 时间:
2015-08-06 16:40:21
阅读次数:
194
——Java培训、Android培训、iOS培训、.Net培训 期待与您共同交流!——正则表达式1. 基本正则表达式所谓正则表达式就是使用一系列预定义的特殊字符来描述一个字符串的格式规则,然后使用该格式规则匹配某个字符串是否符合格式要求。1.1. “.”和”\”“.”点儿,在正则表达式中标是任意一个字符。
“\”在正则表达式中是转意字符,当我们需要描述一个已经被正则表达式使用的特殊字符时,我们就可...
分类:
编程语言 时间:
2015-07-31 10:40:38
阅读次数:
119
1. 正则表达式(1) 正则表达式用来在文件中匹配符合条件的字符串,正则是包含匹配。grep、awk、sed等命令可以支持正则表达式;通配符用来匹配符合条件的文件名,通配符是完全匹配。ls、find、cp这些命令不支持正则表达式,所以只能使用shell自己的通配符来进行匹配了。(2) 基础正则表达式...
分类:
系统相关 时间:
2015-07-25 18:23:17
阅读次数:
170
《.NET 面向对象程序设计进阶》《.NET 面向对象程序设计进阶》《正则表达式助手》
分类:
Web程序 时间:
2015-07-20 01:12:51
阅读次数:
112
1、基础正则表达式字符
^word 意义:待查找的字符串在行首 范例 grep -n ‘^#’ doc.txt
word意义:待查找的字符串在行尾范例grep?n‘a 意义:待查找的字符串在行尾 范例 grep -n ‘a’ doc.txt
. 意义:代表一定有一个任意字符的字符 grep -n ‘e.e’ doc.txt
\ 意义:将特殊符号的特殊意义去除
* 意义:重复零到无穷...
分类:
系统相关 时间:
2015-06-13 12:54:12
阅读次数:
179
基础正则表达式元字符作用*前一个字符匹配0次或任意多次.匹配除换行符以外的任意一个字符^匹配行首。取反$匹配行尾[]匹配中括号中制定的任意一个字符。例如:[0-9]匹配任意一个数字。[a-z]匹配任意一个小写字母[^]匹配除中括号字符以外的任意一个字符。例如:[^a-z]匹配任意一位非小写字母\转义...
分类:
系统相关 时间:
2015-06-12 00:39:47
阅读次数:
196