码迷,mamicode.com
首页 > 其他好文 > 详细

新闻爬虫架构

时间:2019-02-04 14:04:07      阅读:239      评论:0      收藏:0      [点我收藏+]

标签:节点   发布   ast   任务   mic   idt   free   spl   alt   

新闻爬虫系统架构:

  • Zookeeper master:发布爬取任务 监控爬虫子节点存活性 宕机时重启
  • Kafka:分布式消费队列
  • Ip-pool:动态更换Ip 反防爬
  • Extraction service:抽取规则服务器

 

 

技术图片

 

 

 

disruptor:lock free用于快速消费任务

 

技术图片

 

新闻爬虫架构

标签:节点   发布   ast   任务   mic   idt   free   spl   alt   

原文地址:https://www.cnblogs.com/lnas01/p/10351673.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!