CrawlSpider一直无法进入回调函数的 碰到的两个坑: 1、正则表达式写的不对 start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1'] link = LinkExtractor(allo ...
分类:
其他好文 时间:
2020-07-26 01:52:52
阅读次数:
85
= :精确匹配(必须全部相等) ~ :大小写敏感 ~* :忽略大小写 ^~ :只需匹配uri部分,不匹配正则表达式。 @ :内部服务跳转 匹配顺序: = > ^~ > ~* > /document/ > / request / :A request /index.html :B request /d ...
分类:
其他好文 时间:
2020-07-26 01:00:55
阅读次数:
62
正则表达式 一说规则我已经知道你很晕了,现在就让我们先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/ 正则表达式测试工具 正则表达式本身也和python没有什么关系,就是匹配字符串内容的一种规则。 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用 ...
分类:
编程语言 时间:
2020-07-26 00:48:23
阅读次数:
76
python 网页解析器 1、常见的python网页解析工具有:re正则匹配、python自带的html.parser模块、第三方库BeautifulSoup(重点学习)以及lxm库。 2、常见网页解析器分类 (1)模糊匹配 :re正则表达式即为字符串式的模糊匹配模式; (2)结构化解析: Beat ...
分类:
编程语言 时间:
2020-07-26 00:29:13
阅读次数:
83
用正则表达式,去除无效字符非常简单。让我们看一个例子 const str = "https://en.wikipedia.org/" str.replace(/[<>|:"*?\\/]+/g, '') // => "httpsen.wikipedia.org" [] 称为字符类,JS 会把字符串与方 ...
分类:
其他好文 时间:
2020-07-26 00:22:37
阅读次数:
73
<div class="dadian_i_i_news_text" v-html="reMove(item.content)"></div> reMove: function(content) { return content.replace(/<\/?[^>]*>|(\n|\t|\r)|(\s)/ ...
分类:
其他好文 时间:
2020-07-26 00:14:59
阅读次数:
62
sed在处理文本时是逐行读取文件内容,读到匹配的行就根据指令做操作,不匹配就跳过。 sed是Linux下一款功能强大的非交互流式文本编辑器,可以对文本文件进行增、删、改、查等操作,支持按行、按字段、按正则匹配文本内容,灵活方便,特别适合于大文件的编辑。详细用法参考:shell脚本--sed的用法 s ...
分类:
系统相关 时间:
2020-07-25 10:05:51
阅读次数:
96
reg_test.cpp内容如下: #include <vector> #include <fmt/format.h> #include <console_color.h> #include <re2/re2.h> using namespace re2; using namespace std; ...
分类:
其他好文 时间:
2020-07-24 21:48:06
阅读次数:
101
一、提取 ${} 之间的内容 1、正则表达式 2、用 Python的正则 提取 二、替换 ${} 之间的内容 1、替换 2、封装成专门的替换函数 import re def my_split(resource_data: str, split_content: dict): """ :param r ...
分类:
其他好文 时间:
2020-07-24 09:56:26
阅读次数:
156
文件上传漏洞、解析漏洞总结 1.文件上传漏洞是什么 文件上传漏洞是指用户上传了一个可执行的脚本文件,并通过此脚本文件获得了执行服务器端命令的能力。常见场景是web服务器允许用户上传图片或者普通文本文件保存,而用户绕过上传机制上传恶意代码并执行从而控制服务器。显然这种漏洞是getshell最快最直接的 ...
分类:
Web程序 时间:
2020-07-24 09:52:21
阅读次数:
124