搜索关键字：模拟浏览器，搜索到394个结果！码迷,mamicode.com！

初识爬虫

何为爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。我们平时的上网就是浏览器提交请求->下载网页代码->解析/渲染成页面。而我们的爬虫就是模拟浏览器发送请求->下载网页代码->只提取有用的数据-> ...

分类：其他好文时间：2018-12-03 21:39:40 阅读次数：200

爬虫--urllib模块

一.urllib库概念：urllib是Python自带的一个用于爬虫的库，其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中是urllib和urllib2。使用流程：指定url 基于u ...

分类：Web程序时间：2018-12-03 15:26:25 阅读次数：139

爬虫介绍+Jupyter Notebook

什么是爬虫爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。哪些语言可以实现爬虫 1.php：可以实现爬虫。php被号称是全世界最优美的语言（当然是其自己号称的，就是王婆卖瓜的意思），但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java：可以实现爬虫。java ...

分类：其他好文时间：2018-12-03 11:20:02 阅读次数：459

爬虫之header

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不是一次性就加载完成的，实质上是执行了好多

分类：其他好文时间：2018-11-29 17:54:21 阅读次数：240

Python爬虫之Urllib库的基本使用

urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功能，需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求，再根据浏览器的请求头来伪装，User-Agent头就是用来标识浏览器的。 ...

分类：编程语言时间：2018-11-27 01:34:40 阅读次数：234

selenium模块

一、selenlum介绍 selenium这个三方库，最初是一个自动化测试工具，可以实现让浏览器完成自动化的操作。 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器。而爬虫中使用它主要是为了解决 requests无 ...

分类：其他好文时间：2018-11-22 02:43:38 阅读次数：260

开源JAVA单机爬虫框架简介,优缺点分析

互联网营销时代，获取海量数据成为营销推广的关键。而获得数据的最佳方式就是利用爬虫去抓取。但是爬虫的使用少不了代理ip太阳HTTP的支撑。当然网络上现在有很多开源爬虫，大大方便了大家使用。但是开源网络爬虫也是有优点也有缺点，清晰认知这一点才能达成自己的目标。对于爬虫的功能来说。用户比较关心的问题往往是：1）爬虫可以爬取ajax信息么？网页上有一些异步加载的数据，爬取这些数据有两种方法：使用模拟浏览器

分类：编程语言时间：2018-11-16 15:08:59 阅读次数：168

爬虫初入

什么是爬虫？爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。爬虫的分类通用爬虫通用爬虫是搜索引擎“抓取系统”的重要组成部分，主要目的是将互联网上的内容下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能将网页下载到本地服务器进行备份，再对这些内容进行处理，最后提 ...

分类：其他好文时间：2018-11-15 12:08:36 阅读次数：92

Nginx详解

1.1nginx的特点Nginx与Apache相比有很多改进之处。比如：在性能上，Nginx占用的系统资源更少，能支持更多的并发连接（特别是静态小文件场景下），达到更高的访问效率；在功能上，Nginx不但是一个优秀的Web服务软件，还可以作为反向代理负载均衡及缓存服务使用；在安装配置上，Ngi ...

分类：其他好文时间：2018-11-12 12:04:47 阅读次数：223

爬虫--Python常用模块之requests,urllib和re

一、爬虫的步骤 1.发起请求，模拟浏览器发送一个http请求 2.获取响应的内容 3.解析内容（解析出对自己有用的部分） a.正则表达式 b.BeautifulSoup模块 c.pyquery模块 d.selenium模块 4.保存数据 a.文本文件(txt,csv等) b.数据库(mysql) c ...

分类：编程语言时间：2018-11-11 00:03:33 阅读次数：287

共394条上一页 1 ... 14 15 16 17 18 ... 40 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)