产品经理学Python-爬虫攻坚no.2-简单爬虫架构

时间：2019-08-12 23:55:50 阅读：190 评论：0 收藏：0 [点我收藏+]

时间不等人，我学爬虫的近期目的是爬取一个网站的资源，主要是在大量的伪html中访问url不断请求数据，关键问题在正则表达和访问速度上。

1/简单的爬虫架构示例

技术图片

2/　　运行流程

技术图片

3/URL管理器

技术图片

网页下载器-urllib2

网页解析器-正则表达式、html.paser、BeautifulSoup、Ixml

BeautifulSoup

结构化解析-DOM解析

技术图片

原文地址：https://www.cnblogs.com/bogepm/p/11343229.html

踩

(0)

评论一句话评论（0）