ICTCLAS是中科院计算所开发的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉。下面是java版的例子。
纯Java版本的ICTCLAS(即ictclas4j),下载地址:http://pan.baidu.com/s/1jGGFXNS(这是0.9.1版的,官网经常打不开,这是我在百度云盘的分享)
...
分类:
其他好文 时间:
2014-12-23 17:27:44
阅读次数:
328
由于项目需要全文检索,后面就去网上查了下资料,找到了Sphinx【中文是狮身人面像】这个全文检索引擎,听说挺好用的,不过没有中文分词。后面又去找了一下,找到了Coreseek,一款中文全文检索/搜索软件。一、Sphinx PHP扩展下载 PHP已经有专门的Sphinx的扩展文件,点击这里可以下...
"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提...
分类:
编程语言 时间:
2014-12-22 11:24:00
阅读次数:
661
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。 大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。 这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代...
分类:
其他好文 时间:
2014-12-21 19:29:09
阅读次数:
193
描述: 在Linux环境下实现高速的全文检索一、当前环境: CentOS (Linux) 6.3 64 bit二、所需软件1、Java的JDK2、Solr最新稳定版Solr-4.53、Tomcat最新稳定版Tomcat-7.0.424、IK Analyzer最新稳定版分词器IKAnalyze...
分类:
其他好文 时间:
2014-12-21 19:23:48
阅读次数:
259
最近接触分词,用c语言更快,所以。。。。
codeblocks下载:http://www.codeblocks.org/downloads/26
如果没有配置mingw可以下载以下两个:
codeblocks-13.12mingw-setup.exe
codeblocks-13.12mingw-setup-TDM-GCC-481.exe
我本地安装了所以下载了:
codeblock...
分类:
数据库 时间:
2014-12-20 11:44:03
阅读次数:
376
一、lucene建立索引过程:1、解析器用来解析物理文件,从中提取出所需的文本,其作用于物理文件;2、分析器用来分析文本内容(文字),其作用于解析器处理物理文件之后生成的文本;Lucene没有自己开发语言分析程序,JavaCC来生成分析器;分析器(analyzer)主要包含分词器和过滤器。分析器使用...
分类:
Web程序 时间:
2014-12-19 17:16:02
阅读次数:
198
官网:http://lucene.apache.org/各中文分词比较http://blog.csdn.net/chaocy/article/details/5938741教程相关:http://blog.chinaunix.net/uid-20648927-id-1907275.html庖丁解牛下...
分类:
Web程序 时间:
2014-12-18 16:44:30
阅读次数:
130
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer ov...
分类:
Web程序 时间:
2014-12-18 16:29:35
阅读次数:
1432
http://fuxiaopang.gitbooks.io/learnelasticsearch/content/ (中文)在Elasticsearch中,文档术语一种类型(type),各种各样的类型存在于一个索引中。你也可以通过类比传统的关系数据库得到一些大致的相似之处:关系数据库 ? 数...
分类:
其他好文 时间:
2014-12-18 10:18:33
阅读次数:
268