码迷,mamicode.com
首页 > 其他好文 > 详细

开源新闻采集器(一)内容简介

时间:2014-07-28 11:22:50      阅读:197      评论:0      收藏:0      [点我收藏+]

标签:art   html   工作   ar   算法   时间   htm   har   

1.最近闲来无事,想把自己最近一段时间工作的东西整理下。

目标:新闻采集器

        1.只需要输入列表网址,采集器将自动采集所有的文章。

    2.采集器最后无需写任何采集规则。

       3.基于静态爬虫的HTML分页获取 策略(自己捉摸的,准确度不高)

       4.基于开源项目的内容提取算法(Html2Article)

       5.基于编码的探测的开源项目(NUniversalCharDet)

 

开源新闻采集器(一)内容简介,布布扣,bubuko.com

开源新闻采集器(一)内容简介

标签:art   html   工作   ar   算法   时间   htm   har   

原文地址:http://www.cnblogs.com/lmcq/p/3872146.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!