码迷,mamicode.com
首页 >  
搜索关键字:re模块    ( 960个结果
Python 入门之 内置模块 -- re模块
Python 入门之 内置模块 -- re模块 re模块中的常用方法 正则表达式 ...
分类:编程语言   时间:2019-09-18 11:02:10    阅读次数:98
scrapy实战,使用内置的xpath,re和css提取值
以伯乐在线文章为爬取目标blog.jobbole.com,发现在"最新文章"选项中可看到所有文章 一般来说,可以用scrapy中自带的xpath或者css来提取数据,定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas ...
分类:Web程序   时间:2019-09-16 12:08:33    阅读次数:140
re模块
# 元字符 匹配内容# . 匹配除换行符意外任意字符串# \w 匹配字母或数字下划线# \d 匹配数字# \s 匹配任意空白符# \W \D \S 和 |w \d \s 相反 # \n 匹配换一个行符 回车 # \t 匹配一个 tab # 空格 匹配空格 # ^ 匹配字符串的开始 # $ 匹配字符串 ...
分类:其他好文   时间:2019-09-15 18:33:57    阅读次数:112
第三章 模块
1、列举常用模块 time模块、random模块、os模块、sys模块、re模块、requests模块 模块:简单来说就是一堆代码来实现某些功能,他们是已经写好的.py文件,只需要用import来调用即可。 分类:自定义模块、内置标准模块、开源模块 2、如何安装第三方模块 pip install 模 ...
分类:其他好文   时间:2019-09-11 18:04:53    阅读次数:82
正则表达式和re模块
什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin 一个段子: 世界是分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的。 正 ...
分类:其他好文   时间:2019-09-11 11:27:53    阅读次数:88
爬虫总结
爬取网站的思路 多级页面数据抓取 1、爬取一级页面,提取所需数据+链接,继续跟进 2、爬取二级页面,提取所需数据+链接,继续跟进 3、... 爬虫代码规范书写: 常见的反爬总结 基于User-Agent反爬 一般被关注的变量是userAgent和Referer和Cookie,可以考虑用浏览器中 1、 ...
分类:其他好文   时间:2019-09-11 09:35:38    阅读次数:101
Python_re模块
一、re简介 正则表达式是一种对字符串(包括普通字符、非打印字符、通用字符(称为“原子”)、特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是一种文本模式,该模 ...
分类:编程语言   时间:2019-09-07 18:28:35    阅读次数:95
Python re模块下的常用方法
注意: 1 findall的优先级查询: 2 split的优先级查询 综合练习与扩展 ...
分类:编程语言   时间:2019-09-01 13:10:38    阅读次数:112
re模块
Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。 1 # encoding: UTF-8 2 import ...
分类:其他好文   时间:2019-09-01 01:39:24    阅读次数:93
正则与re模块
一、正则表达式 在线测试工具 http://tool.chinaz.com/regex/ 1.字符组 在同一个位置可能出现的各种字符组成一个字符组,在正则表达中用[ ]表示 一个正则就是一条匹配规则,可以规定一次匹配字符的长度,字符组每次匹配一个长度为1的字符,例如:待匹配字符为:2a+ 使用字符组 ...
分类:其他好文   时间:2019-08-31 21:49:07    阅读次数:94
960条   上一页 1 ... 11 12 13 14 15 ... 96 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!