CrawlSpider一直无法进入回调函数的 碰到的两个坑: 1、正则表达式写的不对 start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1'] link = LinkExtractor(allo ...
分类:
其他好文 时间:
2020-07-26 01:52:52
阅读次数:
85
= :精确匹配(必须全部相等) ~ :大小写敏感 ~* :忽略大小写 ^~ :只需匹配uri部分,不匹配正则表达式。 @ :内部服务跳转 匹配顺序: = > ^~ > ~* > /document/ > / request / :A request /index.html :B request /d ...
分类:
其他好文 时间:
2020-07-26 01:00:55
阅读次数:
62
正则表达式 一说规则我已经知道你很晕了,现在就让我们先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/ 正则表达式测试工具 正则表达式本身也和python没有什么关系,就是匹配字符串内容的一种规则。 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用 ...
分类:
编程语言 时间:
2020-07-26 00:48:23
阅读次数:
76
python 网页解析器 1、常见的python网页解析工具有:re正则匹配、python自带的html.parser模块、第三方库BeautifulSoup(重点学习)以及lxm库。 2、常见网页解析器分类 (1)模糊匹配 :re正则表达式即为字符串式的模糊匹配模式; (2)结构化解析: Beat ...
分类:
编程语言 时间:
2020-07-26 00:29:13
阅读次数:
83
用正则表达式,去除无效字符非常简单。让我们看一个例子 const str = "https://en.wikipedia.org/" str.replace(/[<>|:"*?\\/]+/g, '') // => "httpsen.wikipedia.org" [] 称为字符类,JS 会把字符串与方 ...
分类:
其他好文 时间:
2020-07-26 00:22:37
阅读次数:
73
reg_test.cpp内容如下: #include <vector> #include <fmt/format.h> #include <console_color.h> #include <re2/re2.h> using namespace re2; using namespace std; ...
分类:
其他好文 时间:
2020-07-24 21:48:06
阅读次数:
101
一、提取 ${} 之间的内容 1、正则表达式 2、用 Python的正则 提取 二、替换 ${} 之间的内容 1、替换 2、封装成专门的替换函数 import re def my_split(resource_data: str, split_content: dict): """ :param r ...
分类:
其他好文 时间:
2020-07-24 09:56:26
阅读次数:
156
在Flask中,添加路由有两种方式:(一般情况下都是用第一种方式) 第一种:常见的装饰器模式 @app.route("/") def index(): return "Hello World" 通过这种方式,将rule与视图函数对应起来 第二种:通过阅读装饰器模式添加路由的源码发现 def rout ...
分类:
其他好文 时间:
2020-07-23 23:29:38
阅读次数:
138
1、在vim中设置tab缩进为4个字符setautoindent或setai2、复制/etc/rc.d/init.d/functions文件至/tmp目录,替换/tmp/functions文件中的/etc/syscon?g/init为/var/logcp/etc/rc.d/init.d/functions/tmpvim/tmp/functions%s@/etc/sysconfig/init@/va
分类:
其他好文 时间:
2020-07-23 22:52:48
阅读次数:
76
什么是正则表达式? 正则表达式是一组由字母和符号组成的特殊文本, 当你想要判断许多字符串是否符合某个特定格式;当你想在一大段文本中查找出所有的日期和时间;当你想要修改大量日志中所有的时间格式,在这些情况下,正则表达式都能帮上忙。 简单来说,正则表达式描述了一系列规则,通过这些规则,可以在字符串中找到 ...
分类:
编程语言 时间:
2020-07-23 22:52:11
阅读次数:
64