正则的贪婪匹配 非贪婪模式按照最小重复数取 非贪婪匹配 正则的方法 re.split 正则分割 分割次数 保留分隔符,用一个括号套住分隔符 sub 替换字符串需要三个参数,要替换的内容(正则),新内容,字符串 分开写用compile可以写一次规则然后多次匹配,好处就是方便灵活。 返回一个迭代器对象 ...
分类:
编程语言 时间:
2017-07-04 23:27:34
阅读次数:
343
首先来个小知识点,利用非贪婪匹配出我们的目标字符串:<div>yuan<img></div> 看代码: 知道这点之后,我们就可以开始爬虫网站了。 爬取网站:https://movie.douban.com/top250 想要爬取的内容:电影名称、排名、评分等。 其中<em class="">1</e ...
分类:
编程语言 时间:
2017-07-03 18:06:08
阅读次数:
207
元字符: * 星号 它指定前一个字符可以被匹配零次或更多次 匹配a和b之间的字符,如果有,那么继续直到没有为止。所以它是贪婪匹配。 如果a和b之间有字符,但是不是bcd中的任意一个那么将会停止,取到上次匹配的结果。 + 加号 指定前边的字符一次或者更多次。区别于 * 的是,至少需要一次。 + 是非贪 ...
分类:
编程语言 时间:
2017-07-01 18:18:34
阅读次数:
151
简介: 本文是系列博客的第一篇,主要讲解和分析正则表达式规则以及JAVA中原生正则表达式引擎的使用。在后续的文章中会涉及基于NFA的正则表达式引擎内部的工作原理,并在此基础上用1000行左右的JAVA代码,实现一个支持常用功能的正则表达式引擎。它支持贪婪匹配和懒惰匹配;支持零宽度字符(如“\b”, ... ...
分类:
编程语言 时间:
2017-06-29 01:12:09
阅读次数:
331
正则表达式 就其本质而言,正则表达式(或 re)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。 字符匹配(普通字符,元字符): 1 普通字符(完全匹配):大多数字符和字母 ...
分类:
编程语言 时间:
2017-06-28 19:00:05
阅读次数:
135
re(续): re默认是贪婪模式。 贪婪模式:在满足匹配时,匹配尽可能长的字符串。 re的模块的常用方式: re.split(): 类似字符串的split命令但是比 字符串的split 更强大。 re.sub():类似replace 替换操作。 re.compile():编译 一个小爬虫正则练习(爬 ...
分类:
编程语言 时间:
2017-06-27 20:52:56
阅读次数:
222
贪婪加载:顾名思议就是把所有要加载的东西一 次性读取 当读取订单信息orders的时候,我们希望把订单的详细信息也读取出来,那么这里我们使用Include关键字将关联表也加载进 来。 延迟加载:即当我们需要用到的时候才进行加载(读取) 当我们希望浏览某条订单信息的时候,才显示其对应的订单详细记录时, ...
分类:
其他好文 时间:
2017-06-27 18:47:27
阅读次数:
366
一 补充正则表达式的其他一些使用方法 1.贪婪模式:在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配 2非贪婪匹配:在满足匹配时,匹配尽可能短的字符串,使用?来表示非贪婪匹配 3 .*?的用法: 4 re.findall 注意: findall的优先级查询: 5 re.split 注意 ...
分类:
其他好文 时间:
2017-06-27 18:35:44
阅读次数:
155
python的正则表达式模块re match()与search()的区别: match是从源字符串头开始,仅当从头开始匹配成功,才能成功从一串字符串中匹配到目标字符串 rearch是从源字符串任意位置开始匹配 match和search的共同点是一旦匹配成功就返回,因而只会从源字符串中成功匹配一个目标 ...
分类:
编程语言 时间:
2017-06-25 14:58:57
阅读次数:
304
点击链接查看云笔记原文 花了半天时间,贪婪的啃读了Effective java 这本书(虽然闻名已久,但是很少看书) 翻着翻着就有种废寝忘食的感觉,下班了都留下来专门看书,后来索性带回家看了. 以下是内容总结,主要是对个人感觉有用的,有很大部分没有提及,因为水平有限,还没有来得及消化 1 引言 2 ...
分类:
编程语言 时间:
2017-06-22 00:25:52
阅读次数:
212