Python 开发简单爬虫 - 实战演练

时间：2017-02-14 15:54:13 阅读：271 评论：0 收藏：0 [点我收藏+]

爬取百度百科1000个页面的数据

1. 准备工作：

　　确定目标 => 分析目标（URL格式, 数据格式, 网页编码） => 编写代码 => 执行爬虫

　　1.1 链接分析：

　　　　进入百度百科“Python”词条页面：http://baike.baidu.com/view/21087.htm => 在链接位置右键后，点击审查元素,

　　　　href="/view/2561555.htm" 是一个不完整的url, 在代码中需要拼接成完整的 baike.baidu.com/view/2561555.htm 才能进行后续的访问。

　　　　技术分享

　　1.2 标题分析：

　　　　在标题位置右键后，点击审查元素。可看到标题内容在<dd class> 下的 <h1> 子标签中。

　　　　技术分享

　　1.3 简介分析：

　　　　在简介位置右键后，点击审查元素。可看到简介内容在<class="lemma-summary"> 下。

　　　　技术分享

　　1.4 查看编码方式：

　　　　在空白位置右键后，点击审查元素。可看到编码方式在 script charset = “utf-8”

　　　　技术分享

　　1.5 分析目标汇总：

　　　　a. 目标：百度百科Python词条相关词条网页 - 标题和简介

　　　　b. 入口页：http://baike.baidu.com/view/21087.htm

　　　　c. URL格式：词条页面URL：/view/125370.htm

　　　　d. 数据格式：

　　　　　　- 标题：<dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1></dd>

　　　　　　- 简介：<div class= "lemma-summary">***<div>

　　　　e. 页面编码：UTF-8

2. 实例代码

　　2.1 调度程序：spyder_main.py

　　2.2 URL管理器：url_manager.py

　　2.3 HTML下载器：html_downloader.py

　　2.4 HTML解析器：html_parser.py

　　2.5 HTML输出器：html_outputer.py

原文地址：http://www.cnblogs.com/wnzhong/p/6397477.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行