所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档:https://docs.python.org/2/l ...
分类:
编程语言 时间:
2019-09-22 23:48:55
阅读次数:
113
获取响应内容: 获取编码,状态(200成功,4xx客户端错误,5xx服务器相应错误),文本,等。 定制Request请求 传递URL参数 定制请求头 发送POST请求 POST请求发送表单信息,密码不显示在URL中,数据字典发送时自动编码为表单形式。 超时并抛出异常 ...
分类:
编程语言 时间:
2019-05-31 23:35:06
阅读次数:
162
urllib包提供了一个高级接口,用于编写需要与HTTP服务器、FTP服务器和本地文件交互的客户端。典型的应用程序包括从网页抓取数据、自动化、代理、Web爬虫等。 1. urllib.request \(\) 该模块最常见的用途是通过HTTP从Web服务器获取数据。 urlopen\(url \[, ...
分类:
Web程序 时间:
2019-04-21 12:55:47
阅读次数:
160
beautiful soup 入门 Beautiful Soup 是 python 的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beau ...
分类:
其他好文 时间:
2019-02-21 20:24:26
阅读次数:
225
1.Beautiful Soup 1.Beautifulsoup 简介 此次实战从网上爬取小说,需要使用到Beautiful Soup。Beautiful Soup为python的第三方库,可以帮助我们从网页抓取数据。它主要有如下特点: 1.Beautiful Soup可以从一个HTML或者XML提 ...
分类:
编程语言 时间:
2019-01-24 14:31:10
阅读次数:
216
知识预览 beautifulsoup的简单实用 beautifulsoup的遍历文档树 beautifulsoup的搜索文档树 beautifulsoup的css选择器 beautifulsoup的简单使用 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 ...
分类:
其他好文 时间:
2019-01-03 22:32:32
阅读次数:
230
python爬虫(四)_urllib2库的基本使用 本篇我们将开始学习如何进行网页抓取,更多内容请参考:python学习指南 urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。 ...
分类:
编程语言 时间:
2018-12-18 00:02:01
阅读次数:
275
很多时候,定义清楚问题比解决问题更难。 什么是MapReduce? 它不是一个产品,而是一种解决问题的思路,它有多个工程实现,Google在论文中也给出了它自己的工程架构实现。 MapReduce这个编程模型解决什么问题? 能够用分治法解决的问题,例如: 网页抓取 日志处理 索引倒排 查询请求汇总 ...
分类:
其他好文 时间:
2018-12-12 12:55:03
阅读次数:
185
之前写过关于Hadoop方面的MapReduce框架的文章MapReduce框架Hadoop应用(一) 介绍了MapReduce的模型和Hadoop下的MapReduce框架,此文章将进一步介绍mapreduce计算模型能用于解决什么问题及有什么巧妙优化。 MapReduce到底解决什么问题? Ma ...
分类:
其他好文 时间:
2018-12-09 17:28:16
阅读次数:
234
在进行单个爬虫抓取的时候,我们不可能按照一次抓取一个url的方式进行网页抓取,这样效率低,也浪费了cpu的资源。目前python上面进行并发抓取的实现方式主要有以下几种:进程,线程,协程。进程不在的讨论范围之内,一般来说,进程是用来开启多个spider,比如我们开启了4进程,同时派发4个spider ...
分类:
编程语言 时间:
2018-12-01 23:48:05
阅读次数:
444