码迷,mamicode.com
首页 > 其他好文 > 详细

网络爬虫-总结

时间:2019-01-30 21:45:13      阅读:116      评论:0      收藏:0      [点我收藏+]

标签:处理   https   架构   数据   www   www.   连接   需要   port   


import requests
requests . get( ‘ https:/ /www. baidu. com‘)
爬虫程序
1.给定种子url,程序负责获取url的页面数据
2.程序对页面数据解析解析,匹配需要的url连接,放入到队列
3.重复1和2, 直到条件完成

效率 线程 协程 分布式架构

优先级排序

去重 先hash 再处理

数据存储

 

网络爬虫-总结

标签:处理   https   架构   数据   www   www.   连接   需要   port   

原文地址:https://www.cnblogs.com/liubosong/p/10339781.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!