码迷,mamicode.com
首页 > Web开发 > 详细

分享一个近期写的简单版的网页采集器

时间:2016-05-03 23:50:40      阅读:201      评论:0      收藏:0      [点我收藏+]

标签:

功能特点

1、可通过配置,保存采集规则。

2、可通过采集规则,进行数据采集。

3、可分页,分关键字,进行采集。

4、可保存数据至数据库,文本中。

...........

 

功能还比较简单,喜欢深入的可以继续深入下去,暂时还没有登录的功能,因为登录功能涉及到的范围比较广,待日后慢慢研究后再开发。

我先上个图让大家一睹为快吧:

首先看看页面,我们要采集这个网站的文章

 技术分享

接下来,首先是查找分页,获得分页里面的文章链接,接着查找内容页需要采集的字段,生成规则,进行采集。

技术分享

 

最后,可以开始采集了,感兴趣的你,可以试试....

 

技术分享

 

怎么样,有点意思吧?

我们再来看看源码结构,如下图,分层采用的是简单的业务+数据层(Biz)、模型层(Model)、公共设施层(Framework),因为是小项目,所以没有过多的分层

技术分享

Model层 使用的是EF的CodeFirst 来生成数据库表和字段的,其他不多讲了,自己体会吧。

 

下载源码

分享一个近期写的简单版的网页采集器

标签:

原文地址:http://www.cnblogs.com/qq260250932/p/5456781.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!