标签:
1、 BeautifulSoup是一个很好用的Python写的一个HTML/XML的解析器,它可以处理不规范标记并生成剖析树(parse tree)。Beautifulsoup可以对便签Object进行操作。
tag (对应html中的标签)
tag.attrs (以字典形式返回tag的所有属性)
可以直接对tag的属性进行增、删、改;
2、python正则表达式结果中,re.search.group()用来提取分组匹配截获的字符串,()内的数字用来表示分组
1)group() 同group(0)就是匹配正则表达式整体结果
group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分,以此类推;
2.)没有匹配成功的,re.search()返回None;
3.)正则则表达式中没有括号,group(1)报错。
3、re.match与re.search的区别:re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配;re.sub用于替换字符串中的匹配项;可以使用re.split来分割字符串,如:re.split(r‘\s+‘, text);将字符串按空格分割成一个单词列表;
4、lambda:这是Python支持一种有趣的语法,它允许你快速定义单行的最小函数,类似与C语言中的宏;
>>> g = lambda x: x * 2
>>> g(3)
6
>>> (lambda x: x * 2)(3)
6
标签:
原文地址:http://www.cnblogs.com/woodyle/p/4642706.html