1.预计完成时间:在一开始的时候,我并不认为这项作业的完成难度有多大。因为觉得这个程序主要的部分就是三块码,读入当前目录下的所有内容,统计单词和排序,但是我对于C++和C#两种语言都不熟悉,所以准备先用两天来熟悉语言(后来发现这个决定是错误的。。至少 不应该用这么长的时间)。在程序的具体模块中,我划...
分类:
其他好文 时间:
2014-09-25 10:46:48
阅读次数:
213
一、计划首先鉴于之前只学习过c程序和java程序的语法,对c++/c#一无所知,学习语法大约5小时。虽然上学期写过一个类似的java程序,但感觉功能还是有些区别,而且java与c++的方法好多不同,所以并不能直接在其基础上修改。写各个小功能的函数3小时,写递归函数扫描文件夹3小时。完成之后还需要对程...
分类:
其他好文 时间:
2014-09-25 03:09:58
阅读次数:
259
预计用时:在刚接到这个作业的时候,根据上学期的经验,我预计完成这份作业需要的时间为:查找资料1小时,学习c#基础知识2小时,写代码4小时,调试测试1小时实际用时:但是,当我真正开始写这份作业之后,才意识到这次的作业远比我想象预计中的复杂,于是,等做完作业之后,我的实际用时是:查找资料2小时,学习c#...
分类:
其他好文 时间:
2014-09-24 13:14:16
阅读次数:
223
开发语言:C#开发平台:Visual Studio 2013 Professional预计时间:建立工程基本框架:半小时模块-递归寻找所有文件:半小时模块-扫描&分离单词:一个半小时Debug&优化:两小时实际时间:预计时间x3事实证明,预计时间是建立在一个相当顺利的基础上才能达到的。在实际Codi...
分类:
其他好文 时间:
2014-09-24 02:54:35
阅读次数:
325
Trie树:应用于统计、排序和搜索
1. trie树定义
1.Trie树 (特例结构树)
Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。...
分类:
其他好文 时间:
2014-09-04 09:48:08
阅读次数:
270
//这个是在原来的基础上修改以后得到的,将其中的分词的依据给换掉了,并且进行词频统计的时候会自动的忽略大小写
packageorg.apache.hadoop.mapred;
importjava.io.IOException;
importjava.util.ArrayList;
importjava.util.Iterator;
importjava.util.List;...
分类:
其他好文 时间:
2014-09-01 10:47:23
阅读次数:
334
有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。...
分类:
其他好文 时间:
2014-08-17 11:47:02
阅读次数:
306
1.背景 最近在搞得ospaf项目(可以移步ospaf中期报告来了解),对于commits数据进行特征提取的时候发现,因为开源项目的commits的特点有以下两个主要放面:1.动词往往出现在第一个字,例如add、revert之类的。2.动词相对固定,主要也就是那几种,add、revert、update、merge、remove之类的。 所以要做的工作就比较清晰了。 ...
分类:
其他好文 时间:
2014-08-15 19:42:29
阅读次数:
206
字典树(讲解+模版)又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。字典树与字典...
分类:
其他好文 时间:
2014-08-01 22:48:12
阅读次数:
416
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。字典树与字典很相似,当你要查一个...
分类:
其他好文 时间:
2014-08-01 10:28:11
阅读次数:
263