之前领导安排了一任务,就是想要把一网站上的东西爬下来,然后改点东西,自己再做一个静态站放到自己的内建服务器上; 其实就想想看这种需求其实却是还蛮多的; 因此一个强大的网站爬虫还是需要的: 推荐 爬站利器-teleport ultra 下载地址:https://pan.baidu.com/s/1lDN ...
分类:
其他好文 时间:
2020-12-30 11:19:28
阅读次数:
0
本来用的api爬取的url失效了(可能是) 就换成了貌似切换不了清晰度的api接口 http://api.bilibili.com/playurl?aid=61735306&page=1&platform=html5 扔在项目里试试结果发现返回的是 { "code": 40000, "message ...
分类:
其他好文 时间:
2019-08-22 09:20:04
阅读次数:
614
前言: 我将在该篇随笔中详细的讲解一下个人爬P站的每个细节和过程,可能还会有许多不足的地方,但还是从中学到了许多。 主题: 首先,我觉得最重要的就是准备好浏览器,因为写整个程序的过程,大多时间我都是在用浏览器对P站进行分析。我用的浏览器是Google Chrome。 然后,我以自己的经验和这个程序的 ...
分类:
编程语言 时间:
2018-01-28 11:17:24
阅读次数:
1064
WEB扫描工具-Vega 纯图形化界面,Java编写的开源web扫描器。两种工作模式:扫描模式和代理模式【主流扫描功能】。用于爬站。处理表单,注入测试等。支持SSL:http://vega/ca.crt 专注于应用程序代码方面的漏洞 Vega #基于字典发现网站目录 代理模式 被动收集信息,结合手动 ...
分类:
其他好文 时间:
2017-10-31 00:02:00
阅读次数:
437
此脚本用于爬站点的下载链接,最终输出到txt文档中。 如果是没有防盗链设置的站点,也可以使用脚本中的下载函数尝试直接下载。 本脚本是为了短期特定目标设计的,如果使用它爬其它特征的资源链接需自行修改配置语句。 python初学者,请多多指正。 ...
分类:
编程语言 时间:
2017-06-02 17:48:11
阅读次数:
226
1 from bs4 import BeautifulSoup 2 import os 3 import requests 4 5 #获取页面内容 6 def getHtmlText(url, s='text'): 7 try: 8 r = requests.get(url, timeout=30)... ...
分类:
其他好文 时间:
2017-04-24 23:03:53
阅读次数:
365
近期要做相关的监控数据,其中有一个页面不知道怎么抓取,请求大师得到数据。
分类:
编程语言 时间:
2015-02-02 20:04:24
阅读次数:
169