requests模块 - 基于如下5点展开requests模块的学习 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用 ...
分类:
其他好文 时间:
2018-11-03 14:05:52
阅读次数:
151
一,介绍 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urlli ...
分类:
其他好文 时间:
2018-10-29 22:56:19
阅读次数:
340
一.urllib库 概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 使用流程: 指定url 基于u ...
分类:
Web程序 时间:
2018-10-29 20:41:59
阅读次数:
197
目标 之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户。详细介绍了第一次探索python爬虫的坑。 准备工作 requests模块向网站发送http请求,BeautifulSoup模块来从静态HTML文 ...
分类:
编程语言 时间:
2018-10-25 17:55:20
阅读次数:
252
一、定义Cookie存储路径 必须使用绝对路径 二、获取Cookie 将cookie存入文件 三、模拟浏览器获取验证码 该服务器验证码有漏洞,可以自己指定 取出cookie,一起提交给服务器,让服务器以为是浏览器打开登陆页面 四、POST提交 五、到指定页面获取数据 ...
分类:
Web程序 时间:
2018-10-25 15:33:40
阅读次数:
167
这个是对最近学习的一次总结吧。前两天写的,今天才有时间写博客。 偶然点开笔趣阁的网址(https://www.biquge.cc/),突然觉得我应该可以用爬虫实现小说下载。有这个想法我就开始尝试了。 爬虫呀,说白了就是程序自动模拟浏览器操作来获取网页的内容。 先用F12查看元素,查看章节网址链接,和 ...
分类:
移动开发 时间:
2018-10-24 12:12:27
阅读次数:
429
在比较早的文章中,提到使用 Microsoft.mshtml.dll 进行模拟浏览器点击的例子。 1.添加引用的问题 一般在开发环境下会在三个地方存有microsoft.mshtml.dll文件。所以在添加引用时,也会出现三个看似一样的项。对于开发者来说,引用其中任何一个都不会影响到正常的开发。但问 ...
分类:
Web程序 时间:
2018-10-11 10:23:26
阅读次数:
249
urllib库 urllib库是pytho中一个最基本网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 urllopen函数 在python的urllib库中,有什么函数供我们使用,所以请求相关的方法都集成到urllib.request模块下以面了,先看ur ...
分类:
Web程序 时间:
2018-10-04 11:00:16
阅读次数:
111
简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 安装 1 下载驱动 if ma ...
分类:
其他好文 时间:
2018-09-30 12:46:10
阅读次数:
173
1 {'title': '坚果小吃零食组合装好吃的\n美食\n休闲食品孕妇成人款散装混合一箱', 'deal': '1910', 'image': '//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i4/123456239/TB2CqDhqgZ ...
分类:
其他好文 时间:
2018-09-28 14:39:16
阅读次数:
192