今天尝试使用python,爬取网页数据。因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件。分别为requests Beautifulsoup4 lxml 三个插件。 因为配置了环境变量,可以cmd命令直接安装。假如电脑上有两个版本的python,建议进入到目录安装。 安装的 ...
分类:
编程语言 时间:
2019-02-09 00:59:07
阅读次数:
284
通过上一次的分析,我们看到所有网页数据经过HTML分析器之后,都会变成一个一个RenderObject对象,那么这些RenderObject对象又是怎么样显示到界面上面的呢?现在就带着这个疑问来分析下面的代码,这样肯定会找到解决方法的。怎么样找到入口呢?其实可以先从界面显示的类开始,可以看到显示界面 ...
分类:
其他好文 时间:
2019-02-01 18:57:32
阅读次数:
236
css:用来控制网页数据的表现,可以使网页的表现与数据内容分离。 一、css的四种引入方式 1.内行式:是在标记style属性中设定css样式,(这种方式没有体现出css的优势,不推介使用) 2.切入式:将css样式集中写在网页的<head></head>标签对<style></style>标签对中 ...
分类:
Web程序 时间:
2019-01-26 18:49:34
阅读次数:
336
CSS css概述 css是Cascading Style Sheets的简称,中文称为层叠样式表,用来控制网页数据的表现,可以使网页的表现与数据内容分离。 一 css的四种引入方式 1.行内式 行内式是在标记的style属性中设定CSS样式。这种方式没有体现出CSS的优势,不推荐使用。 <p st ...
分类:
Web程序 时间:
2019-01-16 14:59:03
阅读次数:
206
异步的使用场景 爬虫: 1.从目标站点下载网页数据,本质是HTML格式字符串 2.用re从字符串中提取出你所需要的数据 进程池使用异步回调来处理结果 线程池使用异步回调来处理结果 什么是回调函数? a 交给 b一个任务,b在执行完成后回过头调用了a的一个函数 就称之为回调函数 通常异步任务都会和回调 ...
分类:
编程语言 时间:
2019-01-04 20:23:14
阅读次数:
214
CSS概念 CSS是Cascading Style Sheets的简称,中文称为层叠样式表,用来控制网页数据的表现,可以使网页的表现与数据内容分离。属性和属性值用冒号隔开,以分号结尾。 一、CSS的四种引入方式 1.行内式 行内式是在标签的style属性中设定CSS样式。这种方式没有体现出CSS的优 ...
分类:
Web程序 时间:
2018-12-28 19:52:34
阅读次数:
173
在我们使用chrome作为爬虫获取网页数据时,往往需如下几步。 打开chrome 导航至目标页面 等待目标页面加载完成 解析目标页面数据 保存目标页面数据 关闭chrome 我们实际的编码往往集中在第4步,并且,在开发过程中,解析网页数据往往不是一步到位的,需要经过反复多次调试才行。如果每次调试都需... ...
分类:
其他好文 时间:
2018-12-11 11:21:39
阅读次数:
1224
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取。本篇介绍怎么写一个爬虫从网上抓取公开的数据。 很多语言都可以写爬虫,但是不同语言的难易程度不同,Python作为一种解释型的胶水语言,上手简单、入门容易,标准库齐 ...
分类:
编程语言 时间:
2018-12-08 13:20:42
阅读次数:
256
TCP协议对应于传输层,而HTTP协议对应于应用层,从本质上来说,二者没有可比性。Http协议是建立在TCP协议基础之上的,当浏览器需要从服务器获取网页数据的时候,会发出一次Http请求。Http会通过TCP建立起一个到服务器的连接通道,当本次请求需要的数据完毕后,Http会立即将TCP连接断开,这 ...
分类:
Web程序 时间:
2018-12-03 11:18:03
阅读次数:
257
爬虫简介 什么是爬虫? 爬虫:就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure S ...
分类:
Web程序 时间:
2018-12-01 23:27:31
阅读次数:
208