码迷,mamicode.com
首页 > 其他好文 > 详细

网络爬虫结构

时间:2017-12-10 21:28:44      阅读:128      评论:0      收藏:0      [点我收藏+]

标签:gpo   分享图片   images   技术分享   post   body   blog   nbsp   工作流   

技术分享图片

 

网络爬虫的基本工作流

1)首先选取url

2)将urll放到待抓取的url队列中

3)从待抓取url队列中读取url -----》解析dns----》获取主机IP--》下载对应的网页---》存储到已经下载的网页库中----》将url放到已经抓取的url队列中

4)分析已经抓取的url队列中的url---》重已经下载的网页数据中提url 比重————》未抓取的放到待抓取队列中

网络爬虫结构

标签:gpo   分享图片   images   技术分享   post   body   blog   nbsp   工作流   

原文地址:http://www.cnblogs.com/mrwuzs/p/8017989.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!