1.猜解常用路径 常用后台路径: Admin Adminlogin Admin/admin_login.asp Admin/admin_login.php Manage User System 大部分网站默认都是admin目录后台。 2.Robots.txt Robots是防止搜索引擎抓取敏感目录和 ...
分类:
Web程序 时间:
2018-06-10 20:11:44
阅读次数:
288
urllib库是python内置的一个http请求库 其实urllib库不好用,没有requests库好用,下一篇文章再写requests库,requests库是基于urllib库实现的 作为最最基本的请求库,了解一下原理还是很有必要的 常用模块: urllib.request 请求模块 urlli ...
分类:
Web程序 时间:
2018-06-08 23:15:56
阅读次数:
370
网络爬虫道德的话:客户授权or爬取公开数据、尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。 2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? ...
分类:
其他好文 时间:
2018-06-05 13:26:33
阅读次数:
598
利用urllib的robotparser模块,可以实现网站Robots协议的分析 1、Robots协议 Robots协议也叫爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫可搜索引擎哪些页面可以抓取,哪些不行,通常是一个叫做robots.txt的文本文件,一般放在网站的根目录 当搜索爬虫访 ...
分类:
Web程序 时间:
2018-06-03 17:26:53
阅读次数:
196
题目大意 一个n m的矩阵,矩阵内有一个出口和若干个机器人,每一步操作可以使所有的机器人向任意方向移动一格,如果机器人出了边界就爆炸。求最多可以让多少个机器人走到出口。 解题思路 发现,移动所有机器人,其实就相当于移动出口和边界。 于是,设f[i][j][k][l],表示机器人走完了子矩阵(i,j) ...
分类:
其他好文 时间:
2018-05-28 13:43:49
阅读次数:
140
原文链接:https://robots.thoughtbot.com/how-to-manage-your-python-projects-with-pipenv 翻译者:Jiong 在thoughtbot,我们用Ruby和Rails工作,但通常我们总是尝试使用最合适的语言或者框架来解决问题。我最近 ...
分类:
编程语言 时间:
2018-05-24 21:54:18
阅读次数:
309
# 这是学习廖雪峰老师python教程的学习笔记1、概览urllib提供了一系列用于操作URL的功能。urllib中包括了四个模块,包括urllib.request:可以用来发送request和获取request的结果urllib.error:包含了urllib.request产生的异常urllib.parse:用来解析和处理URLurllib.robotparse:用来解析页面的robots.t
分类:
编程语言 时间:
2018-05-16 22:40:10
阅读次数:
471
一、语法:<meta name="name" content="string"> 二、参数解析:1)name选项:Keywords(关键字),description(网站内容描述),author(作者),robots(机器人向导)等等 2)http-equiv项:可用于代替name项,常用的选项有E ...
分类:
Web程序 时间:
2018-05-14 21:32:43
阅读次数:
190
【01】blockqote美化 moyu's demo For 50 years, WWF has been protecting the future of nature. The world's l... ...
分类:
其他好文 时间:
2018-05-13 19:55:54
阅读次数:
158
最近了解了爬虫,嗯 ,有时候会搞得有点头晕。 跟着线上老师实现了两个实例。可以用python下载源代码玩玩,爬淘宝的很刺激,虽然违反了ROBOTS协议。 "GIT地址" ...
分类:
其他好文 时间:
2018-05-08 19:29:31
阅读次数:
150