一 什么是爬虫 1 什么是上网?爬虫要做的是什么? 我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。 #3.1 只不过,用户获取网络数据的方式是: 浏览器提交请求->下载网页代码->解析/渲染成页面。 2而爬虫程序要做的就是: 模拟浏览器发送请求->下载网页 ...
分类:
其他好文 时间:
2019-11-25 18:47:19
阅读次数:
76
drf面试题及总结 1.什么是前后端分离 2.什么是restful规范 3.模拟浏览器进行发送请求的工具 4.查找模板的顺序 5.什么是drf组件 6.drf组件提供的功能 7.drf继承过哪些视图类?以及他们之间的区别? 8.GenericAPIView视图类的作用 9.drf版本的实现过程? 1 ...
分类:
其他好文 时间:
2019-11-23 19:51:40
阅读次数:
279
方法1:使用build_opener()来添加 import urllib2 url = "https://www.baidu.com" headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ...
分类:
编程语言 时间:
2019-11-17 14:36:36
阅读次数:
100
请求支付宝二维码图片内容很慢的解决办法 最近开发支付宝小程序项目,通过接口生成的二维码打算下载到服务器,用file_get_contents 获取,结果被限制了很慢7-10秒才获取到 用img 标签访问也是很快,估计是判断了浏览器请求头 后来网上找到解决办法,用curl 模拟浏览器进行访问。秒取 < ...
分类:
微信 时间:
2019-11-16 23:48:31
阅读次数:
218
今天的任务是爬取拉勾网的职位信息。 首先,我们进入拉勾网,然后在职位搜索栏搜索Python 的同时,打开控制面板F12,来查看网页构成。 在XHR里,可以清楚的看见Ajax请求,所以需要使用session模块来模拟浏览器的行为来操作。 源代码如下: import requests import js ...
分类:
编程语言 时间:
2019-11-09 19:55:16
阅读次数:
113
最近遇到一个问题就是,如何模拟真实浏览器行为然后截取显示的网页。 方案 1. 模拟登陆网站或者直接使用cookie登陆。 2. 对指定页面按钮进行点击刷新页面,截取网页。 我们使用selenium库来操作浏览器驱动,即执行浏览器相应的驱动命令,实现相应的浏览器操作。 准备工作 selenium库 浏 ...
分类:
Web程序 时间:
2019-11-07 12:52:13
阅读次数:
194
urllib urllib 是一个用来处理网络请求的python标准库,它包含4个模块 urllib.request 请求模块,用于发起网络请求 request模块主要负责构造和发起网络请求,并在其中添加Headers,Proxy等,利用它可以模拟浏览器的请求发起过程 发起网络请求 、添加Heade ...
分类:
Web程序 时间:
2019-11-02 00:37:31
阅读次数:
121
在linux和windows中使用selenium 一. selenium selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿 ...
续上篇 "《你也可以写个聊天程序 C Socket学习1》" 前言 这里说的服务器是Web服务器,是类似IIS、Tomcat之类的,用来响应浏览器请求的服务。 Socket模拟浏览器的Url Get请求 首先浏览器的请求是HTTP协议。我们上一篇说过,HTTP是短连接,用完就断开,是无状态的。所以我 ...
第一步:介绍badboy工具 1.1: 页面功能分析: 1. 界面视图,模拟浏览器,能够进行操作 2. 需要录制脚本的URL 3. 点击运行URL 4. Summary:运行的各指标,响应时间,成功事物等 5. 参数:在录制到的需要参数化的地方能够在这里操作之后导入jmeter 6. 目录树,记录录 ...
分类:
数据库 时间:
2019-10-18 12:31:31
阅读次数:
116