码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
ictclas4j进行中文分词
ICTCLAS是中科院计算所开发的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉。下面是java版的例子。 纯Java版本的ICTCLAS(即ictclas4j),下载地址:http://pan.baidu.com/s/1jGGFXNS(这是0.9.1版的,官网经常打不开,这是我在百度云盘的分享) ...
分类:其他好文   时间:2014-12-23 17:27:44    阅读次数:328
Coreseek Windows下安装调试
由于项目需要全文检索,后面就去网上查了下资料,找到了Sphinx【中文是狮身人面像】这个全文检索引擎,听说挺好用的,不过没有中文分词。后面又去找了一下,找到了Coreseek,一款中文全文检索/搜索软件。一、Sphinx PHP扩展下载 PHP已经有专门的Sphinx的扩展文件,点击这里可以下...
分类:Windows程序   时间:2014-12-22 12:33:46    阅读次数:437
"结巴"中文分词的R语言版本:jiebaR
"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提...
分类:编程语言   时间:2014-12-22 11:24:00    阅读次数:661
关于开发简易搜索引擎的一些总结和思考
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。  大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。  这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代...
分类:其他好文   时间:2014-12-21 19:29:09    阅读次数:193
全文检索引擎Solr的配置
描述: 在Linux环境下实现高速的全文检索一、当前环境: CentOS (Linux) 6.3 64 bit二、所需软件1、Java的JDK2、Solr最新稳定版Solr-4.53、Tomcat最新稳定版Tomcat-7.0.424、IK Analyzer最新稳定版分词器IKAnalyze...
分类:其他好文   时间:2014-12-21 19:23:48    阅读次数:259
codeblocks上配置mysql数据库
最近接触分词,用c语言更快,所以。。。。 codeblocks下载:http://www.codeblocks.org/downloads/26 如果没有配置mingw可以下载以下两个: codeblocks-13.12mingw-setup.exe codeblocks-13.12mingw-setup-TDM-GCC-481.exe 我本地安装了所以下载了: codeblock...
分类:数据库   时间:2014-12-20 11:44:03    阅读次数:376
Lucene索引
一、lucene建立索引过程:1、解析器用来解析物理文件,从中提取出所需的文本,其作用于物理文件;2、分析器用来分析文本内容(文字),其作用于解析器处理物理文件之后生成的文本;Lucene没有自己开发语言分析程序,JavaCC来生成分析器;分析器(analyzer)主要包含分词器和过滤器。分析器使用...
分类:Web程序   时间:2014-12-19 17:16:02    阅读次数:198
Lucene
官网:http://lucene.apache.org/各中文分词比较http://blog.csdn.net/chaocy/article/details/5938741教程相关:http://blog.chinaunix.net/uid-20648927-id-1907275.html庖丁解牛下...
分类:Web程序   时间:2014-12-18 16:44:30    阅读次数:130
IK 异常class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer ov...
分类:Web程序   时间:2014-12-18 16:29:35    阅读次数:1432
Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,elasticsearch安装配置及中文分词
http://fuxiaopang.gitbooks.io/learnelasticsearch/content/ (中文)在Elasticsearch中,文档术语一种类型(type),各种各样的类型存在于一个索引中。你也可以通过类比传统的关系数据库得到一些大致的相似之处:关系数据库 ? 数...
分类:其他好文   时间:2014-12-18 10:18:33    阅读次数:268
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!