scrapy源码解析参考连接:https://www.jianshu.com/p/d492adf17312 ,直接看大佬的就行了,这里便就不多说了。 今天要学习的是:Scrapy框架中的download middlerware【下载中间件】用法。 一:官方文档中,对下载中间件的解释如下 下载中间件是 ...
分类:
其他好文 时间:
2019-06-06 12:18:02
阅读次数:
110
第三章 数据存储 第一节 json文件处理: 什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清 ...
分类:
其他好文 时间:
2019-06-05 19:45:01
阅读次数:
85
1、爬虫基本概念 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 百度百科 简单的说,爬虫就是获取目标网页源代码,并提取和保存网页信息的自动化程序或者脚本。网络爬虫脚本或者程序一般包含如下几个步骤: A ...
分类:
编程语言 时间:
2019-05-13 17:48:29
阅读次数:
152
什么是cooker: Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会将Cookie的key/value保存到某个目录下的文本文件内,下次请求同一网站时就发送该Cookie给服务器(前提是浏览器设置为启用cookie)。Cookie名称和值可以由服务器端开发自己定义 ...
分类:
其他好文 时间:
2019-05-04 14:50:29
阅读次数:
142
下面研究如何让<html>内容更加“友好”的显示 之前略微接触的prettify能为显示增加换行符,提高可阅读性,用法如下: 同样,它也可以为其中的个别标签做专门的处理,比如对a标签进行处理 代码如下: 其输出结果如下: <a class="mnav" href="http://news.baidu ...
分类:
编程语言 时间:
2019-03-10 00:04:51
阅读次数:
313
爬虫介绍 引入 为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上。 我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获取更多的数据源 ...
分类:
编程语言 时间:
2019-02-26 19:01:40
阅读次数:
172
import osimport timeimport urllib.requestimport urllib.parsefrom lxml import etree# 构建面向对象的代码方式class ZhanZhang(object): # 实例化参数,让参数能够全局调用 def __init__ ...
分类:
其他好文 时间:
2019-02-18 20:28:32
阅读次数:
202
# 前提:# # 通常,很多网站需要登录才能进行浏览,所以在爬取这些网站时,也需要进行登录,并拿取登录时的cookie# # 登录网页,服务器会给客户端一个牌子cookie# # 访问登录页面时,带着牌子进行请求才能返回响应# # 登录界面的爬取# 做法: # 找到牌子,带着牌子进行请求 # coo ...
分类:
Web程序 时间:
2019-02-13 21:03:51
阅读次数:
265
parse解析参数,quote()引用,unquote()反引用 ...
分类:
其他好文 时间:
2019-02-12 13:05:57
阅读次数:
125
url:统一资源定位符 网址,a链接,可以根据url获取指定的数据 聚焦爬虫:根据特定的需求,从网上把数据去下来 爬虫实现的思路: 网页的特点:每个网页有自己的url 网页是由HTML组成的 网页传输的时候使用http和https协议 爬取的思路: 使用一个url 写python代码,模拟浏览器发送 ...
分类:
其他好文 时间:
2019-02-11 21:25:46
阅读次数:
222