搜索关键字：网页抓取，搜索到184个结果！码迷,mamicode.com！

Python爬虫(二)_urllib2的使用

所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载，导入即可使用) urllib2官网文档：https://docs.python.org/2/l ...

分类：编程语言时间：2019-09-22 23:48:55 阅读次数：113

python网络爬虫（1）静态网页抓取

获取响应内容：获取编码，状态（200成功，4xx客户端错误，5xx服务器相应错误），文本，等。定制Request请求传递URL参数定制请求头发送POST请求 POST请求发送表单信息，密码不显示在URL中，数据字典发送时自动编码为表单形式。超时并抛出异常 ...

分类：编程语言时间：2019-05-31 23:35:06 阅读次数：162

urllib包

urllib包提供了一个高级接口,用于编写需要与HTTP服务器、FTP服务器和本地文件交互的客户端。典型的应用程序包括从网页抓取数据、自动化、代理、Web爬虫等。 1. urllib.request \(\) 该模块最常见的用途是通过HTTP从Web服务器获取数据。 urlopen\(url \[, ...

分类：Web程序时间：2019-04-21 12:55:47 阅读次数：160

20190221 beautiful soup 入门

beautiful soup 入门 Beautiful Soup 是 python 的一个库，最主要的功能是从网页抓取数据。 Beautiful Soup 自动将输入文档转换为 Unicode 编码，输出文档转换为 utf-8 编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beau ...

分类：其他好文时间：2019-02-21 20:24:26 阅读次数：225

python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇

1.Beautiful Soup 1.Beautifulsoup 简介此次实战从网上爬取小说，需要使用到Beautiful Soup。Beautiful Soup为python的第三方库，可以帮助我们从网页抓取数据。它主要有如下特点： 1.Beautiful Soup可以从一个HTML或者XML提 ...

分类：编程语言时间：2019-01-24 14:31:10 阅读次数：216

爬虫基础库 — beautifulsoup

知识预览 beautifulsoup的简单实用 beautifulsoup的遍历文档树 beautifulsoup的搜索文档树 beautifulsoup的css选择器 beautifulsoup的简单使用简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。 ...

分类：其他好文时间：2019-01-03 22:32:32 阅读次数：230

python爬虫(四)_urllib2库的基本使用

python爬虫(四)_urllib2库的基本使用本篇我们将开始学习如何进行网页抓取，更多内容请参考:python学习指南 urllib2库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 ...

分类：编程语言时间：2018-12-18 00:02:01 阅读次数：275

Google MapReduce到底解决什么问题？

很多时候，定义清楚问题比解决问题更难。什么是MapReduce？它不是一个产品，而是一种解决问题的思路，它有多个工程实现，Google在论文中也给出了它自己的工程架构实现。 MapReduce这个编程模型解决什么问题？能够用分治法解决的问题，例如：网页抓取日志处理索引倒排查询请求汇总 ...

分类：其他好文时间：2018-12-12 12:55:03 阅读次数：185

MapReduce计算模型二

之前写过关于Hadoop方面的MapReduce框架的文章MapReduce框架Hadoop应用(一) 介绍了MapReduce的模型和Hadoop下的MapReduce框架，此文章将进一步介绍mapreduce计算模型能用于解决什么问题及有什么巧妙优化。 MapReduce到底解决什么问题？ Ma ...

分类：其他好文时间：2018-12-09 17:28:16 阅读次数：234

python实现并发爬虫

在进行单个爬虫抓取的时候，我们不可能按照一次抓取一个url的方式进行网页抓取，这样效率低，也浪费了cpu的资源。目前python上面进行并发抓取的实现方式主要有以下几种：进程，线程，协程。进程不在的讨论范围之内，一般来说，进程是用来开启多个spider，比如我们开启了4进程，同时派发4个spider ...

分类：编程语言时间：2018-12-01 23:48:05 阅读次数：444

共184条上一页 1 2 3 4 5 ... 19 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)