一、正则(re) 就其本质而言,正则表达式(或re)就是一种小型的、高度专业化的编程语言,它内嵌在python中,并通过re模块实现。 正则表达式模式被编译成一系列的字节码,然后由用c语言编写的匹配引擎执行。 用途:模糊匹配 元字符:. ^ $ * + ? {} [] | () \ ?通配符 ‘ . ...
分类:
编程语言 时间:
2019-08-18 13:38:55
阅读次数:
83
数据解析 requests实现数据爬取的流程 因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据,所以,我们的数据爬取的流程可以修改为: 正则解析 常用的正则表达式回顾: re模块练习: 项目爬取练习: Xpath解析 xpath表达式 ...
分类:
其他好文 时间:
2019-08-15 21:04:49
阅读次数:
87
re模块 findall***** 返回列表,找所有的匹配 search***** 返回一个变量,通过group取值;不匹配就返回None,group会报错 match** 相当于search的正则表达式汇总加了一个^ split** 返回列表,按照正则规则切割,默认去、匹配到的内容会被切掉 sub ...
分类:
编程语言 时间:
2019-08-13 22:29:58
阅读次数:
96
findall 函数: 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。 注意: match 和 search 是匹配一次 findall 匹配所有,match 和 search 的区别也很大,可以自行网上查找! 这里主要需要讨论的是其返回值的展现方式,即 ...
分类:
编程语言 时间:
2019-08-09 15:50:17
阅读次数:
130
glob模块 提供了一个函数,用于匹配符合要求的文件: re模块 字符串正则匹配 datetime模块 日期时间 格式化输出也可以这样用: 数据压缩 支持数据打包、压缩的模块:zlib,gzip,bz2,zipfile,以及 tarfile。 压缩数据: 压缩文件: 解压文件: ...
分类:
编程语言 时间:
2019-08-07 22:14:17
阅读次数:
118
Python3 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和 ...
分类:
编程语言 时间:
2019-08-05 19:08:55
阅读次数:
108
一、import re 二、findall方法、search方法、match方法 三、split方法(切块) 四、sub与subn方法 五、其他(compile与finditer) ...
分类:
其他好文 时间:
2019-08-04 18:10:42
阅读次数:
88
1.概念 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 re模块的常见方法: 1. re.findall("RegexExpression", "str") # 返回一个列表, ...
分类:
编程语言 时间:
2019-08-03 21:21:44
阅读次数:
116
正则表达式: 字符: 量词: . ^ $ * + ? { } 李杰李莲李二 李杰和李莲英李二棍 注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配 字符集[][^] 李杰李莲英李二棍子 李杰李莲英李二棍子 4563 4563 分组 ()与 或 |[^] 身份证号码是一 ...
分类:
编程语言 时间:
2019-08-01 14:35:29
阅读次数:
92