有时候需要将网站资源爬取到本地,文件少的情况下可以使用Chrome一个个保存。如果文件太多,则需要使用下面的辅助工具。 1.Teleport Ultra(不是Teleport Pro) 有点:爬取文件以及结构比较完整; 缺点:会修改原文件。会在js中增加tpa标签和在html中增加tppabs标签! ...
分类:
Web程序 时间:
2019-01-14 21:25:46
阅读次数:
915
因为工作原因,需要爬取相关网站的数据,包括中基协网站和天眼查部分数据。 一、中基协网站 爬取思路: 1.查看目标页:http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=%s&size=50 ...
分类:
其他好文 时间:
2018-12-19 18:41:09
阅读次数:
412
目标 之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户。详细介绍了第一次探索python爬虫的坑。 准备工作 requests模块向网站发送http请求,BeautifulSoup模块来从静态HTML文 ...
分类:
编程语言 时间:
2018-10-25 17:55:20
阅读次数:
252
首先需要在ip代理的网站爬取有用的ip,保存到数据库中 随机在数据库中获取一个ip的代码 Middleware动态设置ip代理 ...
分类:
其他好文 时间:
2018-10-03 23:47:55
阅读次数:
313
前言: 记录下在上家公司负责过的一个采集系统从零到整的过程,包括需求,分析,设计,实现,遇到的问题及系统的成效,系统最主要功能就是可以通过对每个网站进行不同的采集规则配置对每个网站爬取数据,目前系统运行稳定,已爬取的数据量大概在600 700万之间(算上一些历史数据,应该也有到千万级了),每天采集的 ...
分类:
其他好文 时间:
2018-07-27 21:13:36
阅读次数:
163
最近学习python网络爬虫,所以自己写了一个简单的程序练练手(呵呵。。)。我使用的环境是python3.6和mysql8.0,抓取目标网站为百度热点(http://top.baidu.com/)。我只抓取了实时热点内容,其他栏目应该类似。代码中有两个变量SECONDS_PER_CRAWL和CRAW ...
分类:
数据库 时间:
2018-06-27 00:19:16
阅读次数:
214
大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如:我们以【CSDN博客】的限制信息为例子在浏览器输入:https://blog.csdn.net/robots.txt获取到信息如下:从上图我们可以看出:①该网站无论用... ...
分类:
编程语言 时间:
2018-03-27 12:27:07
阅读次数:
319
接着上卷来分析,作为开发人员我们都知道,登录是一个想指定URL发送POST请求的过程,所以我们需要找到请求的URL,以及字段,先用一个错误账号和密码做一下尝试,如果是正确的话会直接跳转到别的页面,这样COOKIE就会刷新 很明显拿到了URL看的出来这是手机号的方式进行登录,看下数据 _xsrf保证请 ...
分类:
Web程序 时间:
2018-02-18 12:37:30
阅读次数:
1078
有很多网站是需要先登录,才可以浏览的,所以我们这个案例主要讲解如何以登陆的方式抓取这类的页面 第一:http本身是一种无状态的协议 这样两个请求没有任何关系,像淘宝这样的网站需要记录用户的每次请求,来看看有状态的请求 看一下COOKIE本地存储 用户名密码可以存到本地,所以安全性不高,这样就出现了S ...
分类:
Web程序 时间:
2018-02-18 12:07:49
阅读次数:
573
今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们抓取文章的标题,详情页的图片链接试一下: 看到上面的源码了吧,抓取下来没有用,那么我看下它的后台数据 ...
分类:
Web程序 时间:
2018-02-15 11:07:37
阅读次数:
711