搜索关键字：词频，搜索到1120个结果！码迷,mamicode.com！

关于目前分词的想法

目前分词性能比较差，只有1.65M/s,同事在没有改变主要算法的情况下做了一点优化调整，到3.52M/s，但对性能的提升仍然不够明显。我感觉亟须解决几个问题: 1.search时keyword分词也按多种粒度进行，然后分别sloppyphrase,最后or起来,由于大粒度分的词词频低，因此idf大，它们在排序时优先级更高，符合期望。现在只做一个粒度的切法，又要求在索引里面都能找到，感觉不太现实。...

分类：其他好文时间：2014-06-27 07:07:34 阅读次数：203

Hadoop基础学习（一）分析、编写并运行WordCount词频统计程序

前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境，其中包括了Hadoop的运行环境。详见我的这篇博文：http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase，下一步打算学习的是将HBase作为Hadoop作业的输入和输出。但是好像以前在南大上学时学习的Hadoop都忘记得差不...

分类：其他好文时间：2014-06-25 08:41:05 阅读次数：889

倒排文档

第一行输出该词所在的行数序号（多个的话，按照从小到大排序输出，中间空格隔开，序号从一开始记），如果没有出现，输出 -1 第二行输出频次排名R的单词出现的次数。测试数据中的词频的分布如下，可见，排名第3的词，出现的次数为2 I,4 Beijing,2 in,2 love,2 .,1 Bejing,1 a,1 also,1 am,1 and,1 beautiful,1 i...

分类：其他好文时间：2014-06-18 06:52:00 阅读次数：224

TF-IDF算法简介

TF-IDF算法全称为termfrequency–inversedocumentfrequency。TF就是termfrequency的缩写，意为词频。IDF则是inversedocumentfrequency的缩写，意为逆文档频率。该算法在信息处理中通常用来抽取关键词。比如，对一个文章提取关键词作为搜索词，就可以采用TF-IDF算法。要找出一?.

分类：其他好文时间：2014-06-10 22:27:19 阅读次数：395

新浪笔试题之删除文本中词频最小的所有字符串

新浪笔试题之删除文本中词频最小的所有字符串...

分类：其他好文时间：2014-06-07 13:50:48 阅读次数：214

Hadoop的改进实验（中文分词词频统计及英文词频统计）博文目录结构

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。下面是五个部分....

分类：其他好文时间：2014-06-07 02:55:09 阅读次数：178

Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:26:48 阅读次数：538

Hadoop的改进实验（中文分词词频统计及英文词频统计）（3/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:25:19 阅读次数：400

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:12:51 阅读次数：394

Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 12:45:25 阅读次数：563