码迷,mamicode.com
首页 > 编程语言 > 详细

产品经理学Python-爬虫攻坚no.2-简单爬虫架构

时间:2019-08-12 23:55:50      阅读:190      评论:0      收藏:0      [点我收藏+]

标签:mic   mamicode   htm   url   技术   载器   str   运行   一个   

时间不等人,我学爬虫的近期目的是爬取一个网站的资源,主要是在大量的伪html中访问url不断请求数据,关键问题在正则表达 和访问速度上。

1/简单的爬虫架构示例

技术图片

2/  运行流程

技术图片

3/URL管理器

技术图片

技术图片

 

 网页下载器-urllib2

 网页解析器-正则表达式、html.paser、BeautifulSoup、Ixml

BeautifulSoup

 

结构化解析-DOM解析

技术图片

 

产品经理学Python-爬虫攻坚no.2-简单爬虫架构

标签:mic   mamicode   htm   url   技术   载器   str   运行   一个   

原文地址:https://www.cnblogs.com/bogepm/p/11343229.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!