码迷,mamicode.com
首页 > 编程语言 > 详细

博客搬家算法伪码

时间:2014-11-14 17:45:26      阅读:280      评论:0      收藏:0      [点我收藏+]

标签:博客   博客搬家   算法伪码   

已有平台:CSDN博客、51CTO、博客园、WordPress


不同平台的博客,数据解析方式不一样,数据抓取和存储都是类似的。


1.确定博客首页地址

  a.平台地址

  比如,CSDN的博客地址是 http://blog.csdn.net/

  b.账号

   fansunion

   

  CSDN某个用户的地址是:http://blog.csdn.net/FansUnion


2. 从首页获得关键信息


  2.1获得博客分类列表


  

  新人毕业-老人跳槽(24) 

  OpenJDK源码研究笔记(16) 

  性能优化(11) 

  中国象棋(13) 

  

  List<String> 存储所有的文章分类,保存到数据库中

  addArticleCategory(Integer userId,List<String> categoryList);

  

  创建所有的日志分类(id自增,name)

  

    2.2确定日志的页数

   CSDN的"431条数据 共9页"

   获取到“9” pageCount

   

3.获取日志集合   

  3.1确定日志列表的地址

   比如CSDN的日志格式是:http://blog.csdn.net/FansUnion/article/list/2

  

  

  3.2遍历所有的文章列表

    for(int index=0;index<pageCount;index++){

  解析该页的日志地址,比如CSDN的格式是“ http://blog.csdn.net/fansunion/article/details/17070151

}

所有的日志地址集合

List<String> articleList;

4.遍历所有的文章

  for(int index=;index<articleList.size;index++){

  抓取每1篇日志的字段数据,

  

  Article:标题、内容、摘要、时间、性质(原创、转载、翻译)

  

  保存到数据库中

  addArticle(Article);

  

  }

原文首发:http://fansunion.cn/article/detail/59.html
 

博客搬家算法伪码

标签:博客   博客搬家   算法伪码   

原文地址:http://blog.csdn.net/fansunion/article/details/41121137

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!