1. ansible-playbook安装tomcat 1) 编写playbook的tomcat安装配置 2)配置文件检查 3) 执行playbook的tomcat安装文件 2. 验证playbook的tomcat验证是否正常 1)验证端口和进程是否存在 2)curl 模拟浏览器请求是否正常访问 ...
分类:
其他好文 时间:
2019-09-20 10:22:35
阅读次数:
101
什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 简单来讲就是尽可能的;把互联网上 ...
分类:
其他好文 时间:
2019-09-18 14:30:04
阅读次数:
126
爬虫的工作原理 首先,爬虫可以模拟浏览器去向服务器发出请求; 其次,等服务器响应后,爬虫程序还可以代替浏览器帮我们解析数据; 接着,爬虫可以根据我们设定的规则批量提取相关数据,而不需要我们去手动提取; 最后,爬虫可以批量地把数据存储到本地 爬虫的步骤 第0步:获取数据。爬虫程序会根据我们提供的网址, ...
分类:
编程语言 时间:
2019-08-31 13:07:27
阅读次数:
123
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。采用的是Rhinojs引擎。模拟js运行。 说白了就是一个浏览器,这个浏览器是用Ja ...
分类:
编程语言 时间:
2019-08-24 17:05:06
阅读次数:
99
一 爬虫的初识和价值 什么是爬虫? 爬虫就是通过编写程序 模拟 浏览器上网,让其去互联网上 抓取 数据的过程 爬虫的价值 实际的应用(爬取数据的产品化、商业化) 就业(爬虫工程师紧缺) 二 爬虫的合法性 爬虫本身 在法律上并不被禁止 ,但是具有违法的风险 爬虫所带来的的风险主要体现在一下两个方面: ...
分类:
其他好文 时间:
2019-08-23 15:02:36
阅读次数:
68
1. requests 模块简介 什么是requests 模块 requests模块是python中原生的基于网络请求的模块,功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。requests模块作用:模拟浏览器发请求。 为什么要使用requests 模块 因为在使用urllib模块的时候, ...
分类:
其他好文 时间:
2019-08-23 00:14:17
阅读次数:
95
1.安装及下载selenium安装: pip install selenium 即可自动安装seleniumgeckodriver下载:https://github.com/mozilla/geckodriver/releasesChromedriver下载:http://npm.taobao.or ...
分类:
编程语言 时间:
2019-08-09 15:32:30
阅读次数:
69
上节我们了解了图形验证码的识别,简单的图形验证码我们可以直接利用Tesserocr来识别,但是近几年又出现了一些新型验证码,如滑动验证码,比较有代表性的就是极验验证码,它需要拖动拼合滑块才可以完成验证,相对图形验证码来说识别难度上升了几个等级,本节来讲解下极验验证码的识别过程。1.本节目标本节我们的目标是用程序来识别并通过极验验证码的验证,其步骤有分析识别思路、识别缺口位置、生成滑块拖动路径,最后
分类:
编程语言 时间:
2019-08-08 00:09:51
阅读次数:
128
def ipinfocip(ip): # 获得 输入框中的信息 url = "http://www.cip.cc/%s" % ip # 模拟浏览器请求网络 headers={'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi... ...
分类:
编程语言 时间:
2019-08-02 00:06:26
阅读次数:
153
浏览器对象模型 1.浏览器引入JavaScript 1.直接在HTML文件中引入 首先第1种方式就是直接在HTML文档里面引入JavaScript代码。在维护一些老项目的时候,经常 可以看到J avaScript代码是写在<title>标签下面的,并且通过一对<script>标签来引入代 码 但是, ...
分类:
其他好文 时间:
2019-07-28 17:56:24
阅读次数:
103