码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
初学Hadoop之计算TF-IDF值
1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/.....
分类:其他好文   时间:2015-05-09 20:15:03    阅读次数:136
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器。Solr?提供了层面搜索、命中醒目显示并且支持多种输出格式(包括?XML/XSLT?和?JSON?格式)。它易于安装和配置,而且附带了一个基于HTTP?的管理界面。Solr已经在众...
分类:其他好文   时间:2015-05-08 13:14:00    阅读次数:161
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr包装并扩展了Lucene,所以Solr的..
分类:其他好文   时间:2015-05-08 13:10:49    阅读次数:183
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与...
分类:其他好文   时间:2015-05-08 13:07:59    阅读次数:137
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr包装并扩展了Lucene,所以S...
分类:其他好文   时间:2015-05-08 12:56:56    阅读次数:138
最大匹配分词算法
全文检索有两个重要的过程:1分词                                               2倒排索引 我们先看分词算法 目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,...
分类:编程语言   时间:2015-05-06 17:49:08    阅读次数:130
中文分词之9271组反义词
这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 一丘之貉?比众不同 一丝不苟?草草了事?粗心大意?敷衍了事?粗枝大叶 一举两得?事倍功半?顾此失彼 一了百...
分类:其他好文   时间:2015-05-06 15:29:58    阅读次数:111
CentOS 6.5+Nutch 1.7+Solr 4.7+IK 2012
环境Linux版本:CentOS6.5JDK版本:JDK1.7Nutch版本:Nutch1.7Solr版本:Solr4.7IK版本:IK-Analyzer2012目录1.安装JDK2.安装Solr3.为Solr配置IK分词4.安装Nutch内容1.安装JDK1.1在/usr/下创建java/目录,下载JDK包并解压[root@localhost~]#mkdir/usr/java [root@localhost~]#c..
分类:其他好文   时间:2015-05-06 15:27:09    阅读次数:126
在Solr中配置和使用ansj分词
在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar包配置到solr.....
分类:其他好文   时间:2015-05-06 12:27:33    阅读次数:172
NLP
近期有同学问我有哪些较好的nlp工具。之前我们都知道中科院的ictclas,能够实现分词、词性标注功能,而且最新版的还增加了几个篇章级的功能,如新词识别,关键词抽取等,在接口方面ictclas有java,c++,python版本。另外,从去年开始我一直在用哈工大的ltp,它的基础性功能比ictcla...
分类:其他好文   时间:2015-05-05 21:21:18    阅读次数:148
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!