现代生活中,我们很难不与excel表打交道,excel表有着易学易用的优点,只是当表中数据量很大,我们又需要从其他表册中复制粘贴一些数据(比如身份证号)的时候,我们会越来越倦怠,毕竟我们不是机器,没法长时间做某种重复性的枯燥操作。想象这样一个场景,我们有个几千行的表要填,需要根据姓名输入其对应的身份 ...
分类:
编程语言 时间:
2019-09-27 17:43:53
阅读次数:
122
抓取下网页代码之后,下一步就是从网页中提取信息,提取信息的方式有多种多样,可以使用正则来提取,但是写起来会相对比较繁琐。在这里还有许多强大的解析库,如LXML、BeautifulSoup、PyQuery等等,提供了非常强大的解析方法,如XPath解析、CSS选择器解析等等,利用它们我们可以高效便捷地从从网页中提取出有效信息。本节我们就来介绍一下这些库的安装过程。1.2.1LXML的安装LXML是P
分类:
数据库 时间:
2019-07-30 09:16:22
阅读次数:
161
最近准备换房子,在网站上寻找各种房源信息,看得眼花缭乱,于是想着能否将基本信息汇总起来便于查找,便用python将基本信息爬下来放到excel,这样一来就容易搜索了。 1. 利用lxml中的xpath提取信息 xpath是一门在 xml文档中查找信息的语言,xpath可用来在 xml 文档中对元素和 ...
分类:
编程语言 时间:
2019-06-26 01:14:17
阅读次数:
267
分析: 这一题是一个很经典的树形dp题目, 从题面中提取信息,我们可以发现每个节点有两种状态,选与不选。 所以,我们的状态第一维就可以先确定下来了,第一维为子树的根(节点编号)。 因为每个节点的贡献只跟它的父亲是否参加有关,所以我们只要保留关键信息——选与不选就行了。 所以,我们的状态第二维也可以确 ...
分类:
其他好文 时间:
2019-05-01 01:39:30
阅读次数:
121
Selenium 可以驱动浏览器完成各种操作,比如填充表单、模拟点击等。比如,我们想要完成向某个输入框输入文字的操作,总需要知道这个输入框在哪里吧?而 Selenium 提供了一系列查找节点的方法,我们可以用这些方法来获取想要的节点,以便下一步执行一些动作或者提取信息。 如下,我们通过右键点击搜索框 ...
分类:
其他好文 时间:
2019-03-16 09:32:22
阅读次数:
513
在上一章中,我们掌握了使用 R 从网页中提取信息。为了理解网页爬虫的运行机理,我们学习了几种语言,如HTML、CSS 和XPath。事实上,R 提供的不仅仅是统计计算环境。R 社区还提供数据收集、数据操作、统计建模、可视化,以及报告和演示等一切可能涉及到的工具。本章将介绍一些提高生产力的扩展包。先回 ...
分类:
其他好文 时间:
2019-02-11 15:36:47
阅读次数:
178
JMeter的,最流行的开源性能测试工具,可以工作正则表达式,用正则表达式提取。正则表达式是一种用于通过使用高级操作提取文本的必需部分的工具。正则表达式在测试Web应用程序时很流行,因为它们可用于验证和执行Web应用程序响应的操作。 在JMeter中,正则表达式提取器对于从响应中提取信息非常有用。例 ...
分类:
其他好文 时间:
2019-02-07 17:39:16
阅读次数:
174
一、概述 简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。 1.获取网页 使用urllib、request可以向网站的服务器发送一个请求,服务器返回的是网页的源代码。 2.提取信息 当我们获取到网页源代码之后,我们需要分析网页源代码,并从中提取我们想要的数据。最通常的办法是使用正则表达式提取 ...
分类:
其他好文 时间:
2019-01-24 01:13:28
阅读次数:
141
爬取斗鱼网页(selenium+chromedriver得到网页,用Beasutiful Soup提取信息) 结果示例: ...
分类:
编程语言 时间:
2018-12-08 19:09:09
阅读次数:
407