【python爬虫】动态html

时间：2019-12-22 20:24:50 阅读：127 评论：0 收藏：0 [点我收藏+]

标签：速度日志运行取数工具高峰数据方便 das

一、反爬策略　

　　1、请求头

　　　　——user-agent
　　　　——referer
　　　　——cookie

　　2、访问频率限制

　　　　——代理池
　　　　——再用户访问高峰期进行爬取，冲散日志。12-13 7-10
　　　　——设置等待时长。time.sleep(3)

　　3、ajax异步请求，用接口获取数据

　　4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数）

　　5、页面内容是js代码

　　　　selenium+phantomjs的组合进行页面内容的获取

二、html页面的技术

　　1、js：页面在请求html的过程中，服务器返回html，同时还会请求js文件。
　　2、jqery：js的库，方便js开发。
　　3、ajax：web的异步请求技术

三、selenium和phantomjs

　　1、什么是selenium？

　　　　selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。

　　2、phantomjs

　　　　是一个内置无界面浏览器引擎。--无界面可以提高程序运行速度。
　　　　因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。

　　3、安装selenium和phantomjs

　　　　selenium安装：pip install selenium==2.48.0
　　　　phantomjs安装：百度phantomjs镜像--->下载一个Windows版本的————>phantomjs-2.1.1-windows.zip

　　　　可视化的chrome浏览器插件：---chromedriver安装：
　　　　下载：百度：chromedriver镜像

　　　　　　（1）保证chrome是正版。
　　　　　　（2）查看自己chrome的版本号：73.0.3683.86
　　　　　　（3）找一个和自己版本号最接近的版本下载。

　　　　将下载好的exe文件复制到：C:\Anaconda3\Scripts

【python爬虫】动态html

标签：速度日志运行取数工具高峰数据方便 das

原文地址：https://www.cnblogs.com/Tree0108/p/12080654.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

【python爬虫】动态html

一、反爬策略

1、请求头

——user-agent ——referer ——cookie

2、访问频率限制

——代理池 ——再用户访问高峰期进行爬取，冲散日志。12-13 7-10 ——设置等待时长。time.sleep(3)

3、ajax异步请求，用接口获取数据

4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数）

5、页面内容是js代码

selenium+phantomjs的组合进行页面内容的获取

二、html页面的技术

1、js：页面在请求html的过程中，服务器返回html，同时还会请求js文件。 2、jqery：js的库，方便js开发。 3、ajax：web的异步请求技术

三、selenium和phantomjs

1、什么是selenium？

selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。

2、phantomjs

是一个内置无界面浏览器引擎。--无界面可以提高程序运行速度。 因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。

3、安装selenium和phantomjs

selenium安装：pip install selenium==2.48.0 phantomjs安装：百度phantomjs镜像--->下载一个Windows版本的————>phantomjs-2.1.1-windows.zip 可视化的chrome浏览器插件：---chromedriver安装： 下载：百度：chromedriver镜像

（1）保证chrome是正版。 （2）查看自己chrome的版本号：73.0.3683.86 （3）找一个和自己版本号最接近的版本下载。

将下载好的exe文件复制到：C:\Anaconda3\Scripts

一、反爬策略　

　　1、请求头

　　　　——user-agent
　　　　——referer
　　　　——cookie

　　2、访问频率限制

　　　　——代理池
　　　　——再用户访问高峰期进行爬取，冲散日志。12-13 7-10
　　　　——设置等待时长。time.sleep(3)

　　3、ajax异步请求，用接口获取数据

　　4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数）

　　5、页面内容是js代码

　　　　selenium+phantomjs的组合进行页面内容的获取

　　1、js：页面在请求html的过程中，服务器返回html，同时还会请求js文件。
　　2、jqery：js的库，方便js开发。
　　3、ajax：web的异步请求技术

　　1、什么是selenium？

　　　　selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。

　　2、phantomjs

　　　　是一个内置无界面浏览器引擎。--无界面可以提高程序运行速度。
　　　　因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。

　　3、安装selenium和phantomjs

　　　　　　（1）保证chrome是正版。
　　　　　　（2）查看自己chrome的版本号：73.0.3683.86
　　　　　　（3）找一个和自己版本号最接近的版本下载。

　　　　将下载好的exe文件复制到：C:\Anaconda3\Scripts