1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/.....
分类:
其他好文 时间:
2015-05-09 20:15:03
阅读次数:
136
Solr是一个基于Lucene的Java搜索引擎服务器。Solr?提供了层面搜索、命中醒目显示并且支持多种输出格式(包括?XML/XSLT?和?JSON?格式)。它易于安装和配置,而且附带了一个基于HTTP?的管理界面。Solr已经在众...
分类:
其他好文 时间:
2015-05-08 13:14:00
阅读次数:
161
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr包装并扩展了Lucene,所以Solr的..
分类:
其他好文 时间:
2015-05-08 13:10:49
阅读次数:
183
Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与...
分类:
其他好文 时间:
2015-05-08 13:07:59
阅读次数:
137
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr包装并扩展了Lucene,所以S...
分类:
其他好文 时间:
2015-05-08 12:56:56
阅读次数:
138
全文检索有两个重要的过程:1分词
2倒排索引
我们先看分词算法
目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,...
分类:
编程语言 时间:
2015-05-06 17:49:08
阅读次数:
130
这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 一丘之貉?比众不同
一丝不苟?草草了事?粗心大意?敷衍了事?粗枝大叶
一举两得?事倍功半?顾此失彼
一了百...
分类:
其他好文 时间:
2015-05-06 15:29:58
阅读次数:
111
环境Linux版本:CentOS6.5JDK版本:JDK1.7Nutch版本:Nutch1.7Solr版本:Solr4.7IK版本:IK-Analyzer2012目录1.安装JDK2.安装Solr3.为Solr配置IK分词4.安装Nutch内容1.安装JDK1.1在/usr/下创建java/目录,下载JDK包并解压[root@localhost~]#mkdir/usr/java
[root@localhost~]#c..
分类:
其他好文 时间:
2015-05-06 15:27:09
阅读次数:
126
在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar包配置到solr.....
分类:
其他好文 时间:
2015-05-06 12:27:33
阅读次数:
172
近期有同学问我有哪些较好的nlp工具。之前我们都知道中科院的ictclas,能够实现分词、词性标注功能,而且最新版的还增加了几个篇章级的功能,如新词识别,关键词抽取等,在接口方面ictclas有java,c++,python版本。另外,从去年开始我一直在用哈工大的ltp,它的基础性功能比ictcla...
分类:
其他好文 时间:
2015-05-05 21:21:18
阅读次数:
148