码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
新版搜索日志记录-持续更新
更新了公司的搜索,写下日志来激励自己!新版搜索新特性:solr版本升级到solr4.8.1中文分词器改用ansj,开源,简洁,强大,无害词库兼顾任意编码格式,不怕乱码分词器和分词词库分离,降低更新分词器版本难度分词器配置统一在library.properties中,在solr/WEB-INF/cla...
分类:其他好文   时间:2014-07-13 08:04:32    阅读次数:268
NLP: 中文分词---正向匹配 (Forward Matching)
在采用FMM (正向最大匹配) 进行中文分词的时候, 可能会存在比较多的交集歧义, 这个时候为了解决交集歧义的问题, 可以采用 FM (Forwar Matching, 正向匹配) 进行中文分词, 正向匹配会在最大匹配的路径上查找所有可能成词的term(这里所有可能成词的term的意思是在构建索引的时候所有切分出来的词, 因为不是路径上的所有节点都会是切分成的词)。 http://blo...
分类:其他好文   时间:2014-07-12 22:23:26    阅读次数:383
NLP: 中文分词算法--正向最大匹配 Forward Maximum Matching
最近接触NLP中文分词, 在lunr.js的基础上, 实现了中文的最大正向匹配分词。 某些情况下, 我们在服务器端进行中文文本分词可以使用完整的基于mmseg算法的分词模块, 例如nodejieba, node-segment, 盘古分词等等,  但是在客户端环境下, 我们不能使用这些复杂的分词算法进行分词, 这个时候可以根据已经生成的索引进行简单的客户端分词, 就是所说的FMM (Forwar...
分类:其他好文   时间:2014-07-12 22:18:57    阅读次数:301
全文索引搜索whoosh(2)
承接前面对whoosh的文章,继续: 写索引文件 下面开始写入索引内容,过程如下: writer = ix.writer() writer.add_document(title=u"my document", content=u"this is my document", path=u"/a", tags=u"firlst short", icon=u"/icons/star.p...
分类:其他好文   时间:2014-07-12 20:22:08    阅读次数:342
NLP: 中文分词算法---交集歧义检测 (cross ambiguity detect)
中文分词中存在交集歧义检测问题, 例如“互联网金宝” 可以切分为“互联网” 和“金宝”, 也可以切分为“互联”和“网金宝”, 如何在切分过程中检测是否有交集歧义发生, 以及如果存在交集歧义的话怎么处理切分问题, 是非常重要的话题。 这里, 可以采用FMM算法进行切分, 首先切分出最大的正向匹配, 然后进行交集歧义检测, 如果检测到存在交集歧义, 那么对可能存在歧义的一段文字进行FM切分, 获取所有的可能切分结果; 然后对剩下的query子句重复进行FMM切分, 直到query == null...
分类:其他好文   时间:2014-07-12 18:26:14    阅读次数:264
Sphinx+MySQL5.1x+SphinxSE+mmseg中文分词
什么是Sphinx Sphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原...
分类:数据库   时间:2014-07-09 11:22:17    阅读次数:310
第四章谈谈中文分词
1.中文分词的演变由于中文等语言,字与字之间是没有空格隔开的,所以需要分词。最简单的分词就是查字典。就是从左到右或者从右到左扫描一句话,然后找到最长的匹配。这种方法可以解决七八成的分词问题。但是毕竟太简单了一点。后来哈工大王晓龙博士把查字典方法理论化,发展成最少词数的分词理论,即一句话应该分成数量最...
分类:其他好文   时间:2014-06-27 11:11:41    阅读次数:179
elasticsearch中文分词(mmseg)——手动添加词典
elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。 经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。 在咸鱼老婆的虚心指导下,我终于找到了解决办法。 手动添加该词到mmseg的词库中,有两种方法: 1、将该词加入到自带的某个词典中(非停...
分类:其他好文   时间:2014-06-27 09:30:33    阅读次数:232
几款开源的中文分词系统
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理...
分类:其他好文   时间:2014-06-26 22:35:29    阅读次数:298
基于隐马尔可夫模型的有监督词性标注
代码下载:基于隐马尔可夫模型的有监督词性标注 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。        词性标注本质上是...
分类:其他好文   时间:2014-06-24 20:05:51    阅读次数:233
713条   上一页 1 ... 67 68 69 70 71 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!