码迷,mamicode.com
首页 >  
搜索关键字:模拟浏览器    ( 394个结果
爬虫入门
一、爬虫介绍 网络爬虫,即Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这 ...
分类:其他好文   时间:2019-01-21 21:07:44    阅读次数:195
第二篇:请求库之requests,selenium
<!--done--> requests模块 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析 ...
分类:其他好文   时间:2019-01-20 13:40:41    阅读次数:202
Selenium自动化测试框架-01
1.Selenium简介 Selenium是一款适用于Web应用程序的便携式软件测试框架,通过模拟浏览器执行操作的工具。 Selenium为编写测试提供了一个回放工具,无需学习测试脚本语言。它还提供了一种测试领域特定的语言,用于编写包括C#,Groovy,Java,Perl,PHP,Python,R ...
分类:其他好文   时间:2019-01-16 22:47:33    阅读次数:193
Python爬虫-02:HTTPS请求与响应,以及抓包工具Fiddler的使用
1. HTTP和HTTPS HTTP: 一种发布和接受HTML页面方法,端口号为80 HTTPS: HTTP的安全版,在HTTP上加入了SSL层,端口号为443 SSL: 用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全 网络爬虫可以理解为模拟浏览器操作的 ...
分类:编程语言   时间:2018-12-31 17:16:47    阅读次数:182
python爬虫
根据特定的需求,抓取指定的数据 代替浏览器上网 网页的特点: 1、网页都有自己唯一的URL 2、网页内容都是html结构 3、使用的都是http或https协议 爬虫步骤: 1、给一个URL 2、写程序,模拟浏览器访问URL 3、解析内容,提取数据 环境: windows环境、linux环境 pyt ...
分类:编程语言   时间:2018-12-26 00:27:22    阅读次数:244
(二)requests模块
一 requests模块 概念: python中原生的基于网络请求的模块,模拟浏览器进行请求发送,获取页面数据 安装: pip install requests python中原生的基于网络请求的模块,模拟浏览器进行请求发送,获取页面数据 二 requests使用的步骤 1 指定url 2 基于re ...
分类:其他好文   时间:2018-12-19 20:50:22    阅读次数:170
校花网爬取
1、堆糖校花网API: 获取数据的api: 图片路径 "path": 2、简要介绍爬虫: (1)从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用; (2)从解析过程来说: 方式1:浏 ...
分类:其他好文   时间:2018-12-18 02:06:19    阅读次数:311
Python网络爬虫
爬虫简介 requests模块 数据解析三大方法 selenium scrapy框架 <!-- <li><a href="#7">归并排序</a></li> --> 爬虫简介 - 什么是爬虫: 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 - 爬虫的分类: - robts. ...
分类:编程语言   时间:2018-12-12 19:03:57    阅读次数:314
爬虫简介
python网络爬虫的简单介绍 python网络爬虫的简单介绍 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多 ...
分类:其他好文   时间:2018-12-04 19:59:24    阅读次数:154
在爬虫使用过程中解决ip被封锁IP限制的几种方法
方法1使用多IP代理:1.IP必须需要,比如ADSL。如果有条件,其实可以跟机房多申请外网IP。2.在有外网IP的机器上,部署代理服务器。3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。好处:1.程序逻辑变化小,只需要代理功能。2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。方法2.有小部分网站的
分类:其他好文   时间:2018-12-04 19:06:54    阅读次数:227
394条   上一页 1 ... 13 14 15 16 17 ... 40 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!