码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
全文检索之lucene的优化篇--分词器
在创建索引库的基础上,加上中文分词器的,更好的支持中文的查询。引入jar包je-analysis-1.5.3.jar,极易分词.还是先看目录。          建立一个分词器的包,analyzer,准备一个AnalyzerTest的类.里面的代码如下,主要写了一个testAnalyzer的方法,测试多种分词器对于中文和英文的分词;为了可以看到效果,所以写了个analyze()的方法,将...
分类:Web程序   时间:2014-12-31 13:05:16    阅读次数:244
.NET下文本相似度算法余弦定理和SimHash浅析及应用
余弦相似性原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度.我们简单表述如下文本1:我/爱/北京/天安门/ 经过分词求词频得出向量(伪向量) [1,1,1,1]文本2:我们/都爱/北京/天安门/ 经过分词求词频得...
分类:编程语言   时间:2014-12-30 16:50:37    阅读次数:220
英语中的现在分词和过去分词
英语中的现在分词和过去分词http://blog.sina.com.cn/s/blog_4e3631450100iecd.html分词是非谓语动词中的一种形式,是英语教学过程中的重点、难点,也是历届高考考查语法点之一。分词分为现在分词和过去分词两种。它在句子里可作表语、宾语补足语定语和状语。但要注意...
分类:其他好文   时间:2014-12-30 14:56:56    阅读次数:200
汉语自动分词
调用“海量智能分词”提供的动态链接库,实现汉语自动分词,并且搭建图形界面用于操作和显示。 首先下载“海量智能分词”软件,解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.lib。 图形界面使用MFC搭建,新建基于对话框的MFC应用程序,同时要将HLSSplit.li...
分类:其他好文   时间:2014-12-30 11:51:17    阅读次数:152
记一个文本分类系统的实现
基于信息检索课程,完成实现了一个文本分类系统,现记录一下整个实现过程。 文本分类以文本数据为分类对象,本质上是机器学习方法在信息检索领域的一种应用,可以继承机器学习领域的很多概念和方法,但同时也需要结合信息检索领域的特点进行处理。主要研究的方向是:文本分词方法、文本特征提取方法、分类算法。 本人主要使用了5种常用的分类算法,分别是kNN、Rocchio、NBC、SVM和ANN,对每种算法的结果...
分类:其他好文   时间:2014-12-29 16:49:34    阅读次数:185
Stanford Segmenter
StanfordSegmenter是Stanford大学的一个开源分词工具,目前已支持汉语和阿拉伯语,只是比较耗费内存,但貌似比中科院的分词工具快(具体没测)。StanfordSegmenter是基于CRF(ConditionalRandomField,条件随机场),CRF是一个机器学习算法,其原理是字构成词,利用此原理把分..
分类:其他好文   时间:2014-12-28 18:21:00    阅读次数:322
几种开源分词工具的比較
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:其他好文   时间:2014-12-26 12:57:08    阅读次数:142
JFBlog 1.0 发布,基于 JFinal 的 Java 轻博客
1、简单介绍 JFinal + mysql + jsp druid 连接池 ehcache 缓存 require.js ajaxfileupload 上传 ztree 树形插件 KindEditor 编辑器 Tinymce 编辑器 syntaxhighlighter 代码高亮 Lucene 全文检索 IK Analyzer 分词...
分类:编程语言   时间:2014-12-26 09:47:20    阅读次数:236
Sphinx中文分词在discuz 中的应用
Sphinx中文分词在discuz中的应用。Sphinx-for-chinese是一款专注于中文搜索的全文检索软件,在sphinx的基础上添加了中文处理模块并优化了中文搜索效果。相比而言,以某某论坛几千万数据环境来看,比Coreseek封装的sphinx中文分词+mmseg3组合要好一点1.准备环境cd/var/tmp/ wget..
分类:Web程序   时间:2014-12-23 17:34:27    阅读次数:248
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!