php中一个非常重要的处理字符串的方法就是正则表达式,这也是其他语言中都有的方法,因为正则表达式对于字符串的处理真的是太强大了,所以这里总结一下,记得当初第一次接触php的时候,还在想着在php页面中使用javascript的正则表达式,后来被人提醒,原来php有自己的正则表达式,当时真是糗大了。。
介绍下php中进行正则表达式的几个主要函数:
int preg_match ( string $pattern , string $subject [, array &$matches [, int $flags =
0 [,int $offset = 0 ]]] )
preg_match()返回 pattern 的匹配次数。 它的值将是0次(不匹配)或1次,因为preg_match()在第一次匹配后 将会停止搜索。
搜索subject中与pattern给定的正则表达式的一个匹配.
pattern 要搜索的模式,字符串类型。
subject 输入字符串。
matches 如果提供了参数matches,它将被填充为搜索结果。$matches[0]将包含完整模式匹配到的文本,$matches[1] 将包含第一个捕获子组匹配到的文本,以此类推。
flagsflags 可以被设置为以下标记值:PREG_OFFSET_CAPTURE 如果传递了这个标记,对于每一个出现的匹配返回时会附加字符串偏移量(相对于目标字符串的)。 注意:这会改变填充到matches参数的数组,使其每个元素成为一个由 第0个元素是匹配到的字符串,第1个元素是该匹配字符串 在目标字符串subject中的偏移量。
offset 通常,搜索从目标字符串的开始位置开始。可选参数 offset 用于 指定从目标字符串的某个未知开始搜索(单位是字节)
preg_replace ( $pattern , $replacement , $subject [, int $limit =
-1[, int &$count ]]
)
pattern
要搜索的模式。可以使一个字符串或字符串数组。
可以使用一些PCRE修饰符,
包括被弃用的‘e‘(PREG_REPLACE_EVAL),可以为这个函数指定。
replacement
用于替换的字符串或字符串数组。如果这个参数是一个字符串,并且pattern 是一个数组,那么所有的模式都使用这个字符串进行替换。如果pattern和replacement 都是数组,每个pattern使用replacement中对应的
元素进行替换。如果replacement中的元素比pattern中的少,
多出来的pattern使用空字符串进行替换。
replacement中可以包含后向引用\\n 或(php
4.0.4以上可用)$n,语法上首选后者。 每个 这样的引用将被匹配到的第n个捕获子组捕获到的文本替换。 n 可以是0-99,\\0和$0代表完整的模式匹配文本。
捕获子组的序号计数方式为:代表捕获子组的左括号从左到右, 从1开始数。如果要在replacement 中使用反斜线,必须使用4个("\\\\",译注:因为这首先是php的字符串,经过转义后,是两个,再经过
正则表达式引擎后才被认为是一个原文反斜线)。
当在替换模式下工作并且后向引用后面紧跟着需要是另外一个数字(比如:在一个匹配模式后紧接着增加一个原文数字), 不能使用\\1这样的语法来描述后向引用。比如, \\11将会使preg_replace() 不能理解你希望的是一个\\1后向引用紧跟一个原文1,还是
一个\\11后向引用后面不跟任何东西。 这种情况下解决方案是使用\${1}1。
这创建了一个独立的$1后向引用, 一个独立的原文1。当使用被弃用的 e 修饰符时,
这个函数会转义一些字符(即:‘、"、 \ 和
NULL) 然后进行后向引用替换。当这些完成后请确保后向引用解析完后没有单引号或 双引号引起的语法错误(比如: ‘strlen(\‘$1\‘)+strlen("$2")‘)。确保符合PHP的 字符串语法,并且符合eval语法。因为在完成替换后,
引擎会将结果字符串作为php代码使用eval方式进行评估并将返回值作为最终参与替换的字符串。
subject
要进行搜索和替换的字符串或字符串数组。
如果subject是一个数组,搜索和替换回在subject 的每一个元素上进行,
并且返回值也会是一个数组。
limit
每个模式在每个subject上进行替换的最大次数。默认是 -1(无限)。
count
如果指定,将会被填充为完成的替换次数。
常用的元字符包括: “+”, “*”,以及 “?”,{n,m}。其中,“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次,“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次,而“?”元字符规定其前导对象必须在目标对象中连续出现零次或一次,{n,m}白哦是前导对象至少出现n次,至多出现m次。
\s:用于匹配单个空格符,包括tab键和换行符;
\S:用于匹配除单个空格符之外的所有字符;
\d:用于匹配从0到9的数字;
\w:用于匹配字母,数字或下划线字符;
\W:用于匹配所有与\w不匹配的字符;
. :用于匹配除换行符之外的所有字符。
常用的定位符包括: “^”, “$”, “\b” 以及 “\B”。其中,“^”定位符规定匹配模式必须出现在目标字符串的开头,“$”定位符规定匹配模式必须出现在目标对象的结尾,\b定位符规定匹配模式必须出现在目标字符串的开头或结尾的两个边界之一,而“\B”定位符则规定匹配对象必须位于目标字符串的开头和结尾两个边界之内,即匹配对象既不能作为目标字符串的开头,也不能作为目标字符串的结尾。
[a-z] 匹配小写字母a到z,[0-9],匹配数字0到9。
转义字符\ 用来匹配那些元字符,定位符等。
原文地址:http://blog.csdn.net/fujiafeihudui/article/details/38590553