1、接触过几种爬虫模块 urllib、requests这两种爬虫模块。 2、robots协议是什么? 它就是一个防君子不防小人的协议,网站有一些数据不想被爬虫程序爬取,可以编写robots协议文件,明确指明哪些内容可以爬取哪些不可以爬取。 requests模块中并没有使用硬性的语法对该协议进行生效操 ...
分类:
编程语言 时间:
2018-12-09 16:28:39
阅读次数:
272
1.sitemap.xml脚本样式 <?xml version="1.0"encoding="UTF-8" ?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:mobile="http://www.baidu.com ...
分类:
其他好文 时间:
2018-12-06 20:20:44
阅读次数:
262
1.通用爬虫:搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。 通用爬虫要遵循规则:Robots协议 通用爬虫工作流程: 爬取网页》存储数据》内容处理》提供检索 通用爬虫缺点: 只能提供和文本相关的内容如html、world、pdf等,不能提供多媒体文件如音乐、图片、视频和二进制文件(脚本、程序)... ...
分类:
其他好文 时间:
2018-12-02 12:23:05
阅读次数:
325
VGG Image Annotator (VIA)是一款开源的图像标注工具,由Visual Geometry Group开发。 可以在线和离线使用,可标注矩形、圆、椭圆、多边形、点和线。标注完成后,可以导出为csv和json文件格式。 地址:http://www.robots.ox.ac.uk/~v ...
分类:
其他好文 时间:
2018-11-30 17:29:55
阅读次数:
1257
例子:下载指定URL下的kernel开头的所有包 wget https://archives.fedoraproject.org/pub/fedora/linux/updates/28/Everything/x86_64/Packages/k/ -r -np -nd -A kernel*.rpm - ...
分类:
Web程序 时间:
2018-11-14 12:38:57
阅读次数:
518
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots E ...
分类:
其他好文 时间:
2018-11-10 12:39:42
阅读次数:
142
准备:安装,组件介绍,项目结构,启动爬虫,windows编码问题,Robots协议,自定义请求头;xpath选择器:xpath与css的比较;实战:获取首页,爬取所有页,爬取深度,去重规则,cookie,登录抽屉并点赞;格式化处理;中间件;自定义:配置文件详细
分类:
编程语言 时间:
2018-11-09 19:25:36
阅读次数:
203
只提供思路经验分享.不提供日站方法....一般站点那里最容易出现问题 入手思路: 主站一般都很安全.一般从二级域名下手 多看看那些大站新出来的测试分站点 猜路径别忘了google 考虑看站点下的robot.txt或者robots.txt 永远别忘记社会工程学 简单的密码也会有以外收获 别忽视XSS, ...
分类:
其他好文 时间:
2018-11-07 00:51:47
阅读次数:
232
在某次考试的时候用过的办法,懒人必备……【笑哭】 一个非常显然的 dp,我们用 \(f[i][j]\) 表示第 \(i\) 行第 \(j\) 列的格子走到最后一排的期望步数转移即为 \(f[i][j] = \frac{f[i][j - 1] + f[i][j + 1] + f[i + 1][j] + ...
分类:
其他好文 时间:
2018-11-05 17:35:25
阅读次数:
145
Robots协议就是每个网站对于来到的爬虫所提出的要求。(并非强制要求遵守的协议,只是一种建议,但是如果不遵守有可能会承担法律责任。) 每个网站的Robots协议都在该网站的根目录下,例如百度的Robots协议的位置就是’https://www.baidu.com/robots.txt’ 或者京东的 ...
分类:
其他好文 时间:
2018-10-31 12:30:23
阅读次数:
620