搜索关键字：爬取，搜索到4795个结果！码迷,mamicode.com！

[现代信息检索]搜索引擎大作业

[现代信息检索]搜索引擎大作业一、题目要求：新闻搜索：定向采集3-4个体育新闻网站，实现这些网站信息的抽取、索引和检索。网页数目不少于10万条。能按相关度、时间、热度(需要自己定义)等属性进行排序，能实现相似新闻的自动聚类。二、题目分析题目分析：我们将任务分解为四个部分：新闻数据的爬取、倒排索引的构...

分类：其他好文时间：2015-01-02 10:54:50 阅读次数：348

Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发，为了满足搜索的准确率的问题，考虑只将网页正文的内容提取出来作为索引的内容，相应的是parse_text的数据。我使用的事nutch1.4 版本号，在cygwin下运行crawl命令进行爬取。bin/nutch crawl urls...

分类：其他好文时间：2014-12-31 18:00:36 阅读次数：207

sixsix团队“餐站”应用M2阶段测试报告——爬虫部分

爬虫2.0 测试报告1.单元测试模块类输入预期实际分析网页分析一个包含若干链接的网页将页面上的 URL 作初步筛选过滤后提取出来，并爬取相关内容存入数据库网页上的 URL都被提取出来放在队列中，数据库存取正常模块功能正常队列队列里的 URL 项有序进入下载无异常模块功能正常下载提供 URL...

分类：其他好文时间：2014-12-29 00:58:57 阅读次数：158

sixsix团队“餐站”应用M2阶段发布报告》待续

一、新功能客户端搜索功能菜品图片加载图片控件点击意见反馈微信分享清除缓存友盟统计爬虫段算法优化》爬取效率增加自动爬取数据服务端接收保存并处理反馈的意见单元测试功能二、修复的缺陷客户端无法退...

分类：其他好文时间：2014-12-28 22:06:23 阅读次数：168

Beta版本发布说明

项目名称Crawling is going on项目版本Beta版本负责人北京航空航天大学计算机学院 newbe软件团队联系方式http://www.cnblogs.com/newbe要求发布日期2014-12-271 更新内容1.1 修复缺陷a)之前没有考虑爬取过程中，出现异常会导致爬取线程非正常...

分类：其他好文时间：2014-12-28 20:49:26 阅读次数：176

使用python+phantomjs抓取动态页面

前一段时间公司需要爬取部分web页面的数据使用。但是页面中的主要数据是ajax load出来的，传统的抓取方法是拿不到数据的。后来在网上发现了phantomjs，在无界面的情况下运行js，渲染dom。用这个工具抓取ajax load...

分类：编程语言时间：2014-12-27 01:38:25 阅读次数：221

大数据处理之道（htmlparser 过滤器<二>）

一：起因（1）最近用于任务需要一直在爬取网页HTML的内容，与类似于爬虫的HtmlParser接触的比较多，爬取无非就是过滤自己想要的信息，因此Filter是核心，当然String类中的matches（regex）函数和contains(str)函数也是非常有用的（2）经常和爬虫打交道就会分析各式各样的网站设计以及布局：用的设计的非常有规律，如QQ空间，微博信息等爬取非常简单（当时要想翻页...

分类：Web程序时间：2014-12-25 18:28:39 阅读次数：325

Daily Scrum 12.24

姓名昨日任务今日任务刘垚鹏完善和增加quiz页面的过滤功能完善和增加quiz页面的过滤功能王骜修复程序无法爬取过多页面的BUG修复程序无法爬取过多页面的BUG林旭鹏存储文件路径太长导致bug修复存储文件路径太长导致bug修复安康无关页面过滤算法的优化限制爬取功能(quiz)无关页面过滤算法的优化限制...

分类：其他好文时间：2014-12-25 01:26:38 阅读次数：250

Daily Scrum 12.23

大家任务都基本完成了，就是改改BUG，开了服务器多爬点页面了。王骜等人帮助黄新越完成了她的一些任务，特此说明。姓名昨日任务今日任务刘垚鹏完善和增加quiz页面的过滤功能完善和增加quiz页面的过滤功能王骜对问答功能的修复修复程序无法爬取过多页面的BUG林旭鹏存储文件路径太长导致bug修复存储文件路径...

分类：其他好文时间：2014-12-23 23:56:00 阅读次数：235

Daily Scrum 12.22

姓名上周末任务今日任务刘垚鹏完善和增加quiz页面的过滤功能完善和增加quiz页面的过滤功能王骜对问答功能的修复对问答功能的修复林旭鹏存储文件路径太长导致bug修复存储文件路径太长导致bug修复安康无关页面过滤算法的优化限制爬取功能(quiz)无关页面过滤算法的优化限制爬取功能(quiz)黄新越Li...

分类：其他好文时间：2014-12-22 22:43:56 阅读次数：244

共4795条上一页 1 ... 465 466 467 468 469 ... 480 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)