一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib.parse,在python2中的是 urllib 和 urllib2 二.由易到难首页面所有的数据 ...
分类:
编程语言 时间:
2019-07-09 19:14:09
阅读次数:
146
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 二.由易到难的爬虫程序: 1.爬取百 ...
分类:
其他好文 时间:
2019-07-08 13:34:13
阅读次数:
90
基于如下5点展开requests模块的学习 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候,会 ...
分类:
其他好文 时间:
2019-07-08 13:21:12
阅读次数:
105
一、爬虫介绍 数据如何获取是重点 何谓爬虫:模拟浏览器向目标服务器发送请求,爬取自己需要的信息,并存入一个文件中。 (1)首先从模拟浏览器开始: http协议: 请求url: https://www.baidu.com/ 请求方式: GET 请求头: Cookie:可能需要关注 User-Agent ...
分类:
编程语言 时间:
2019-06-13 20:02:20
阅读次数:
129
requests是一个很实用的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到。可以说,Requests 完全满足如今网络的需求 官方文档 http://docs.python-requests.org/en/master/ 什么是requests模块 requests模块是 ...
分类:
其他好文 时间:
2019-06-12 19:30:30
阅读次数:
94
要说近几年科技圈什么最火热,无疑就是人工智能,各大科技公司纷纷投入这个浪潮之中,很多从事的是毫不相关的行业的企业也投入到了人工智能的开发与应用中,也想在里面分得一勺半羹。——————————————————提及人工智能,就不得不说到和他息息相关的开发工具,python就是最接近AI的预言之一。总所周知,机器学习和深度学习是开发人工智能两个非常重要的模块,而Python拥有keras、Numpy、m
分类:
编程语言 时间:
2019-06-12 10:58:13
阅读次数:
180
爬虫基础 什么是爬虫? 爬虫是通过程序模拟浏览器上网,从网上获取数据的过程. 爬虫的分类: 通用爬虫:爬取一整个页面的数据. 聚焦爬虫:爬取页面中指定的局部数据 增量式爬虫:检测网站中数据更新的情况,爬取的是网站中最新更新出来的数据. 什么是反爬机制? 网站制作时设置的一系列阻止爬虫程序进行的阻碍, ...
分类:
其他好文 时间:
2019-06-11 22:25:22
阅读次数:
169
urllib库 urllib库是python中的一个基本网络请求库。用于模拟浏览器的行为,向指定服务器发送请求,并接收返回的数据。 在python3中所有的网络请求相关函数都集中在urllib.request模块下面 urlopen函数 向服务器发起请求 urlopen函数的参数 1. url 目标 ...
分类:
Web程序 时间:
2019-06-10 10:37:19
阅读次数:
115
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是采用了selenium来模拟浏览器爬取。 豆瓣登陆也是改了样式,我们可以发现登陆页面是在另一个fra ...
分类:
其他好文 时间:
2019-06-09 12:57:30
阅读次数:
86
什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 优点:自动处理url编码 自动处理post请求参数 简化cookie和代理操作 如何使用requests模块 安装 ...
分类:
编程语言 时间:
2019-06-04 22:31:52
阅读次数:
148