# 解决问题 对教育漏洞提交平台的漏洞相关数据进行分析。 # 内容与要求 爬取网站提交的漏洞的相关信息,对每年漏洞数量,漏洞类型变化,漏洞类型比例,提交漏洞排名,存在漏洞数最多等方面进行统计分析,并可视化 # 使用工具 Requests 用于爬取页面 BeautifulSoup用于页面分析 Pand... ...
分类:
其他好文 时间:
2020-01-12 13:18:09
阅读次数:
440
爬虫学习 15.scrapy中selenium的应用 引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的 ...
分类:
其他好文 时间:
2020-01-10 22:18:58
阅读次数:
81
爬虫学习 09.移动端数据爬取 前言 随着移动市场的火热,各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据,那这些数据我们是否可以去享用一下呢?那么接下来就进入我们的移动端APP数据的爬虫中来吧。 今日概要 fiddle ...
分类:
移动开发 时间:
2020-01-09 22:35:21
阅读次数:
104
爬虫学习 05.Python网络爬虫之三种数据解析方式 引入 回顾requests实现数据爬取的流程 1. 指定url 2. 基于requests模块发起请求 3. 获取响应对象中的数据 4. 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多 ...
分类:
编程语言 时间:
2020-01-09 19:16:10
阅读次数:
150
爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session \ 无 ...
分类:
编程语言 时间:
2020-01-09 19:01:29
阅读次数:
118
目前数据孤岛林立,对接业务软件或者是获取软件中的数据存在较大困难,尤其是CS软件的数据爬取难度更大。 系统对接最常见的方式是接口方式,运气好的情况下,能够顺利对接,但是接口对接方式常需花费大量时间协调各个软件厂商。 除了软件接口,是否还有其他方式,小编总结了集中常见的数据采集技术供大家参考,主要分为 ...
分类:
其他好文 时间:
2020-01-08 12:55:16
阅读次数:
1143
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,*后介绍了pyspid... ...
分类:
编程语言 时间:
2020-01-01 17:17:02
阅读次数:
96
打造轻量级可视化数据爬取工具 菩提 https://mp.weixin.qq.com/s/TBYcWxT6MSAgI6Y4g53TNA scrapy 是一个非常优秀的开源框架,但是需要编码,使用技术门槛较高,跟我们的初衷不符; portia 是应该是第一个开源的可视化 web 数据爬取工具,想法非常 ...
分类:
其他好文 时间:
2019-12-31 10:55:42
阅读次数:
292
异步爬虫方式 目的:在爬虫中使用异步实现高性能的数据爬取操作 异步爬虫方式: 多进程,多线程 (不建议) 好处:可以为先关阻塞操作单独开启进程或者线程,阻塞操作就可以异步执行 坏处:无法无限制开启 线程池,进程池 (适当使用) 好处:可以降低系统对进程或者线程创建和销毁的评率,进而降低系统开销 坏处 ...
分类:
其他好文 时间:
2019-12-28 21:02:23
阅读次数:
103
Ajax数据爬取 简介 数据加载是异步加载,局部刷新。web开发的前后端分离通常都用Ajax交互,降低了服务器直接渲染页面带来的压力 基本原理 发送请求 解析内容 渲染网页 其实就是 向后端指定接口发送请求,返回数据,渲染页面 JS对Ajax底层的实现,实际上是新建了一个XMLHttpRequest ...
分类:
Web程序 时间:
2019-12-22 18:10:39
阅读次数:
84