码迷,mamicode.com
首页 > 其他好文 > 详细

Redis 七月小说网的爬虫缓存设计

时间:2018-02-27 01:10:18      阅读:176      评论:0      收藏:0      [点我收藏+]

标签:script   span   pid   apt   gpo   expect   wait   javascrip   set   

一、爬虫策略

1.主服务器先根据spider.all

二、缓存策略

1.主服务器通过爬取各类排行榜或首页等Book集合、简短字段的页面
创建多个不同key的Hash

expect => create {"siteId_bookId": Hash} 

2.从服务器通过爬书详细页
更新单个key的部分Hash字段, 创建章节有序集合存放章节id ,生成request_url到spider.wait中

expect =>  
update {"siteId_bookId": Hash} , 
create {"siteId_bookId_chapters": Sort Set}

3.从服务器通过爬章节详细页
创建章节Hash对象

expect => create {"siteId_bookId_chapterId": Hash}

4.从主服务器归并两个hash对象和一个sort set对象,生成Book信息导入数据库。

Redis 七月小说网的爬虫缓存设计

标签:script   span   pid   apt   gpo   expect   wait   javascrip   set   

原文地址:https://www.cnblogs.com/jiajin/p/8476311.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!