1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) url: 需要爬取的网址 data: Post提交数据 timeo ...
分类:
编程语言 时间:
2017-09-16 16:14:24
阅读次数:
271
概述 urllib是python最基础、最核心的HTTP协议支持库,诸多第三方库都依赖urllib,所以urllib是必须掌握的HTTP库。 掌握了urllib有利于: 深入理解http协议 可以更好的学习和掌握第三方http库 快速的开展基于http的接口测试 快速进入爬虫学习之路 urllib组 ...
分类:
编程语言 时间:
2017-09-10 10:04:39
阅读次数:
204
当在编写爬虫时同时开启了Fidder解析工具时,访问目标站点会遇到以下错误: File "C:\Users\litao\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 50 ...
分类:
编程语言 时间:
2017-09-09 11:53:28
阅读次数:
214
爬虫,笔记应该怎么写呢? 这就是一个标准的样式,r=requests.request(get,params,等参数),参数有的是headers,是user_agent, 是用户代理,默认这个是python requests,但有些网站不支持,比如亚马逊。所以得加用户代理参数,(可以换成,就谷歌浏览器 ...
分类:
编程语言 时间:
2017-08-05 23:33:52
阅读次数:
411
前一篇小文中就提到了python的requests库可以获取网络编码中的所有内容,我们获取了自然就必须对它进行加工处理,就像我们学习一样,一本书,我们可以轻易的获取,但是它究竟是在讲哲学还是讲历史呢还是其他云云,需要我们认真分析,取其精华去其糟粕。而在python当然也有做这个工作的’人‘,就是我们 ...
分类:
编程语言 时间:
2017-07-31 20:05:32
阅读次数:
446
一.Beautiful Soup的安装与测试 官方网站:https://www.crummy.com/software/BeautifulSoup/ Beautiful Soup安装与使用文档: https://www.crummy.com/software/BeautifulSoup/bs4/do ...
分类:
Web程序 时间:
2017-07-08 00:27:09
阅读次数:
297
一、Python的网页解析器 优点:看起来比较直观 缺点:若文档比较复杂,这种解析方式会显得很麻烦 2.html.parser:此为python自带的解析器 3.lxml:第三方插件解析器,可解析html和xml网页 4.Beautiful Soup:强大的第三方插件解析器,可使用html.pars ...
分类:
Web程序 时间:
2017-07-07 18:17:07
阅读次数:
204
什么是网页下载器? 一、网页下载器是爬虫的核心组件 二、常用的python网页下载器有urlilib2基础模块和requests第三方插件两种 urllib2支持功能:1.支持直接url下载;2.支持向网页直接输入的数据;3.支持需要登陆网页的cookie处理;4.需要代理访问的代理处理 三、url ...
分类:
Web程序 时间:
2017-07-07 13:20:09
阅读次数:
254
url管理器一共有三种实现方法,作为个人,我们应当选择哪种实现方法呢?答案就在下面 爬虫的简单架构 一、URL管理器 实现方式:有三种 1.内存中 python中set()可以直接去除重复的元素 2.关系数据库中 比如:mysql中的urls(url,is_crawled) 建立一个urls表包含两 ...
分类:
Web程序 时间:
2017-07-07 11:45:14
阅读次数:
167