一、简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。它集成高性能异步下载,队列,分布式,解析,持久化等。 Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。 ...
分类:
其他好文 时间:
2019-09-06 20:06:13
阅读次数:
114
前面写都是抓取一些网站上的数据,今天工作提前完成了,闲来无事写一篇如何抓取公众号数据。 爬取公众号 常见的爬取公众号有3种方法 1、通过抓包获取公众号数据(app端) 2、通过抓包获取公众号数据(PC端) 3、通过搜狗搜索公众号(目前只能显示前10篇文章) 今天写的是通过抓取PC端数据获取公众号内容 ...
分类:
其他好文 时间:
2019-09-06 18:59:49
阅读次数:
169
''' 和风api爬取天气预报数据 目标:https://free-api.heweather.net/s6/weather/forecast?key=cc33b9a52d6e48de852477798980b76e&location=CN101090101 得到中国城市的代码:https://a.... ...
爬虫串讲 requests 一定要掌握 爬取数据流程: 1. 指定url 2. 发起请求 3. 获取响应数据 4. 数据解析 5. 持久化存储 get,post参数: url data/params headers proxies 处理ajax动态加载的数据: 动态加载的数据: 通过另一个请求请求到 ...
分类:
其他好文 时间:
2019-09-05 18:20:09
阅读次数:
89
常见的反爬机制及处理方式 1、Headers反爬虫 :Cookie、Referer、User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2、IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问 解决方案: 1、构造自己IP代理池,每次访 ...
分类:
Web程序 时间:
2019-09-04 20:56:58
阅读次数:
154
需求分析 从一个门户网站出发,试图爬取该门户网站所有链接,如此递归下去,发现新域名则保存起来,每个域名网站只爬取一次。有了这些数据在通过外部DNS获得IP,就可以自己搭建DNS服务器了 创建项目 创建一个项目,名叫crawl_all_domainname 创建爬虫较本domain.py, 从han1 ...
分类:
Web程序 时间:
2019-09-04 09:16:35
阅读次数:
128
分布式爬虫 什么是分布式爬虫 基于多台电脑组件一个分布式机群,然后让每一台电脑执行同一组程序,让后让他们对同一个网站的数据进行分布式爬取 为什么使用分布式爬虫 提示爬取数据效率 如何实现分布式爬虫 基于scrapy + redis 的形式实现分布式 原生的scrapy框架不能实现分布式,原因: 1. ...
分类:
其他好文 时间:
2019-09-03 16:47:42
阅读次数:
80
CrawlSpider就是爬虫类Spider的一个子类 使用流程 1. 创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider t crawl spider_name www.xxx.com 2. 构造链接提取器和规则解析器 链接提取器: 作用:可以根据指定的规则进行指 ...
分类:
其他好文 时间:
2019-09-03 16:12:50
阅读次数:
89
爬取豆瓣相册 library(RCurl) library(XML) myHttpheader ...
分类:
其他好文 时间:
2019-09-02 23:40:13
阅读次数:
109
时常会有:"list index out of range 下标越界",或是"TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败",有的师傅说是因为访问过快,导致list的赋值没附上……代码有待优化 ...
分类:
其他好文 时间:
2019-09-02 22:17:48
阅读次数:
197