博客搬家算法伪码

时间：2014-11-14 17:45:26 阅读：280 评论：0 收藏：0 [点我收藏+]

已有平台：CSDN博客、51CTO、博客园、WordPress

不同平台的博客，数据解析方式不一样，数据抓取和存储都是类似的。

1.确定博客首页地址

a.平台地址

比如，CSDN的博客地址是 http://blog.csdn.net/

b.账号

fansunion

CSDN某个用户的地址是：http://blog.csdn.net/FansUnion

2. 从首页获得关键信息

2.1获得博客分类列表

新人毕业-老人跳槽(24)

OpenJDK源码研究笔记(16)

性能优化(11)

中国象棋(13)

List<String> 存储所有的文章分类，保存到数据库中

addArticleCategory(Integer userId,List<String> categoryList);

创建所有的日志分类（id自增，name）

2.2确定日志的页数

CSDN的"431条数据共9页"

获取到“9” pageCount

3.获取日志集合

3.1确定日志列表的地址

3.2遍历所有的文章列表

for(int index=0;index<pageCount;index++){

解析该页的日志地址,比如CSDN的格式是“ http://blog.csdn.net/fansunion/article/details/17070151”

}

所有的日志地址集合

List<String> articleList;

4.遍历所有的文章

for(int index=;index<articleList.size;index++){

抓取每1篇日志的字段数据，

Article:标题、内容、摘要、时间、性质（原创、转载、翻译）

保存到数据库中

addArticle(Article);

原文地址：http://blog.csdn.net/fansunion/article/details/41121137

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行