Python 入门之 内置模块 -- re模块
re模块中的常用方法
正则表达式 ...
分类:
编程语言 时间:
2019-09-18 11:02:10
阅读次数:
98
以伯乐在线文章为爬取目标blog.jobbole.com,发现在"最新文章"选项中可看到所有文章 一般来说,可以用scrapy中自带的xpath或者css来提取数据,定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas ...
分类:
Web程序 时间:
2019-09-16 12:08:33
阅读次数:
140
# 元字符 匹配内容# . 匹配除换行符意外任意字符串# \w 匹配字母或数字下划线# \d 匹配数字# \s 匹配任意空白符# \W \D \S 和 |w \d \s 相反 # \n 匹配换一个行符 回车 # \t 匹配一个 tab # 空格 匹配空格 # ^ 匹配字符串的开始 # $ 匹配字符串 ...
分类:
其他好文 时间:
2019-09-15 18:33:57
阅读次数:
112
1、列举常用模块 time模块、random模块、os模块、sys模块、re模块、requests模块 模块:简单来说就是一堆代码来实现某些功能,他们是已经写好的.py文件,只需要用import来调用即可。 分类:自定义模块、内置标准模块、开源模块 2、如何安装第三方模块 pip install 模 ...
分类:
其他好文 时间:
2019-09-11 18:04:53
阅读次数:
82
什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin 一个段子: 世界是分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的。 正 ...
分类:
其他好文 时间:
2019-09-11 11:27:53
阅读次数:
88
爬取网站的思路 多级页面数据抓取 1、爬取一级页面,提取所需数据+链接,继续跟进 2、爬取二级页面,提取所需数据+链接,继续跟进 3、... 爬虫代码规范书写: 常见的反爬总结 基于User-Agent反爬 一般被关注的变量是userAgent和Referer和Cookie,可以考虑用浏览器中 1、 ...
分类:
其他好文 时间:
2019-09-11 09:35:38
阅读次数:
101
一、re简介 正则表达式是一种对字符串(包括普通字符、非打印字符、通用字符(称为“原子”)、特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是一种文本模式,该模 ...
分类:
编程语言 时间:
2019-09-07 18:28:35
阅读次数:
95
注意: 1 findall的优先级查询: 2 split的优先级查询 综合练习与扩展 ...
分类:
编程语言 时间:
2019-09-01 13:10:38
阅读次数:
112
Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。 1 # encoding: UTF-8 2 import ...
分类:
其他好文 时间:
2019-09-01 01:39:24
阅读次数:
93
一、正则表达式 在线测试工具 http://tool.chinaz.com/regex/ 1.字符组 在同一个位置可能出现的各种字符组成一个字符组,在正则表达中用[ ]表示 一个正则就是一条匹配规则,可以规定一次匹配字符的长度,字符组每次匹配一个长度为1的字符,例如:待匹配字符为:2a+ 使用字符组 ...
分类:
其他好文 时间:
2019-08-31 21:49:07
阅读次数:
94