[现代信息检索]搜索引擎大作业一、题目要求:新闻搜索:定向采集3-4个体育新闻网站,实现这些网站信息的抽取、索引和检索。网页数目不少于10万条。能按相关度、时间、热度(需要自己定义)等属性进行排序,能实现相似新闻的自动聚类。二、题目分析题目分析:我们将任务分解为四个部分:新闻数据的爬取、倒排索引的构...
分类:
其他好文 时间:
2015-01-02 10:54:50
阅读次数:
348
关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4 版本号,在cygwin下运行crawl命令进行爬取。bin/nutch crawl urls...
分类:
其他好文 时间:
2014-12-31 18:00:36
阅读次数:
207
爬虫2.0 测试报告1.单元测试模块类输入预期实际分析网页分析一个包含若干链接的网页将页面上的 URL 作初步筛选过滤后提取 出来,并爬取相关内 容存入数据库网页上的 URL都被提取出来 放在队列中, 数据库存取正 常模块功能正常队列队列里的 URL 项有序进入下载无异常模块功能正常下载提供 URL...
分类:
其他好文 时间:
2014-12-29 00:58:57
阅读次数:
158
一、新功能 客户端 搜索功能 菜品图片加载 图片控件点击 意见反馈 微信分享 清除缓存 友盟统计 爬虫段 算法优化》爬取效率增加 自动爬取数据 服务端 接收保存并处理反馈的意见 单元测试功能二、修复的缺陷 客户端 无法退...
分类:
其他好文 时间:
2014-12-28 22:06:23
阅读次数:
168
项目名称Crawling is going on项目版本Beta版本负责人北京航空航天大学计算机学院 newbe软件团队联系方式http://www.cnblogs.com/newbe要求发布日期2014-12-271 更新内容1.1 修复缺陷a)之前没有考虑爬取过程中,出现异常会导致爬取线程非正常...
分类:
其他好文 时间:
2014-12-28 20:49:26
阅读次数:
176
前一段时间公司需要爬取部分web页面的数据使用。但是页面中的主要数据是ajax load出来的,传统的抓取方法是拿不到数据的。后来在网上发现了phantomjs,在无界面的情况下运行js,渲染dom。用这个工具抓取ajax load...
分类:
编程语言 时间:
2014-12-27 01:38:25
阅读次数:
221
一:起因
(1)最近用于任务需要一直在爬取网页HTML的内容,与类似于爬虫的HtmlParser接触的比较多,爬取无非就是过滤自己想要的信息,因此Filter是核心,当然String类中的matches(regex)函数和contains(str)函数也是非常有用的
(2)经常和爬虫打交道就会分析各式各样的网站设计以及布局:用的设计的非常有规律,如QQ空间,微博信息等爬取非常简单(当时要想翻页...
分类:
Web程序 时间:
2014-12-25 18:28:39
阅读次数:
325
姓名昨日任务今日任务刘垚鹏完善和增加quiz页面的过滤功能完善和增加quiz页面的过滤功能王骜修复程序无法爬取过多页面的BUG修复程序无法爬取过多页面的BUG林旭鹏存储文件路径太长导致bug修复存储文件路径太长导致bug修复安康无关页面过滤算法的优化限制爬取功能(quiz)无关页面过滤算法的优化限制...
分类:
其他好文 时间:
2014-12-25 01:26:38
阅读次数:
250
大家任务都基本完成了,就是改改BUG,开了服务器多爬点页面了。王骜等人帮助黄新越完成了她的一些任务,特此说明。姓名昨日任务今日任务刘垚鹏完善和增加quiz页面的过滤功能完善和增加quiz页面的过滤功能王骜对问答功能的修复修复程序无法爬取过多页面的BUG林旭鹏存储文件路径太长导致bug修复存储文件路径...
分类:
其他好文 时间:
2014-12-23 23:56:00
阅读次数:
235
姓名上周末任务今日任务刘垚鹏完善和增加quiz页面的过滤功能完善和增加quiz页面的过滤功能王骜对问答功能的修复对问答功能的修复林旭鹏存储文件路径太长导致bug修复存储文件路径太长导致bug修复安康无关页面过滤算法的优化限制爬取功能(quiz)无关页面过滤算法的优化限制爬取功能(quiz)黄新越Li...
分类:
其他好文 时间:
2014-12-22 22:43:56
阅读次数:
244