二:多个字符匹配规则:返回以列表的形式,同时定义多个规则可使用”|“ 1. “abc"匹配abc这个字符串 re1 = r"abc" re.findall(re1, "字符串") 2. {m}:表示匹配一个字符m次,"\d{7}" 3. {m,}:表示匹配一个字符至少m次,"\d{7,}" 4. { ...
分类:
其他好文 时间:
2020-04-18 18:32:34
阅读次数:
64
前言 ET支持部分的Xpath语法,对于测试是个非常好用的工具,ET是目前最好用的xml数据文件读取的工具包 find和findall支持的xpath语法 标号 语法 说明 1 tag 查找所有具有指定名称tag的子元素。例如:country表示所有名为country的元素,country/rank ...
分类:
其他好文 时间:
2020-04-13 00:38:40
阅读次数:
117
详解正则表达式(re) 一 research 查找文本中的模式compile 编译findall 查询所有匹配重复与贪婪 re 正则表达式 可以用形式化的语法描述文本匹配模式,模式又被正则表达式引擎编译成指令;执行指令并提供一个字符串作为输入,就可以知道给定的输入有没有与模式相匹配。 文字比较空洞还 ...
分类:
其他好文 时间:
2020-04-12 20:21:11
阅读次数:
64
XML模块:(用到的时候再看)tree=xml.parse('xmltest.xml')root= tree.getroot()print(root.tag) 打印对象的标签root.attrib 获取对象的属性root.text 获取对象的文本内容 RE模块:re.findall("匹配条件"," ...
分类:
其他好文 时间:
2020-04-12 07:49:20
阅读次数:
66
```python from bs4 import BeautifulSoup from urllib import request import threading import re import os from lxml import html class SpiderCategory(thr... ...
分类:
编程语言 时间:
2020-04-06 00:13:04
阅读次数:
69
方式一:正则 import requests import re contents = requests.get('http://www.sohu.com') links = re.findall('href="(.*?)"', contents.text) vaild_link = [] for ...
分类:
Web程序 时间:
2020-04-05 13:53:55
阅读次数:
83
正则表达式中有空格时,所获得的列表内容不会将其分开,视为一个元素,可以实现一下例子自行感受(在写爬虫时要注意,一点差异都会很难找到错误的地方)import repattern = re.compile(r’\d+’) # 查找数字result1 = pattern.findall(‘task 123 ...
分类:
编程语言 时间:
2020-04-03 20:01:14
阅读次数:
61
一. 什么是正则表达式 正则表达式是一种查找以及字符串替换操作,其常被用于检查文本中是否含有指定的特征词、找出文中匹配特征词的位置、从文本中提取信息。Python中的re库是用来实现正则表达式操作的。 1. re.findall()将符合规则的字符串以列表形式返回 import re s = 'py ...
分类:
其他好文 时间:
2020-04-03 12:19:29
阅读次数:
83
一、单个匹配 import re print(re.findall('\w', 'aAbc123_*()-=')) # 规则为 “数字或字母或下划线” 结果为 ['a', 'A', 'b', 'c', '1', '2', '3', '_'] print(re.findall('\W', 'aAbc1 ...
分类:
其他好文 时间:
2020-04-02 01:10:47
阅读次数:
60
问题背景:当我们爬取网页信息时,对于一些标签的提取是没有意义的,所以需要提取标签中间的信息。 解决办法:用到了re包下的函数 方法1:用到了research()方法和group()方法 方法2:用到了findall()方法 具体实现: import re # 匹配两个字符中间的所有字符 a = '< ...
分类:
编程语言 时间:
2020-04-01 15:02:06
阅读次数:
159