搜索关键字：r语言中文分词 rwordseg，搜索到713个结果！码迷,mamicode.com！

新版搜索日志记录-持续更新

更新了公司的搜索，写下日志来激励自己！新版搜索新特性：solr版本升级到solr4.8.1中文分词器改用ansj，开源，简洁，强大，无害词库兼顾任意编码格式，不怕乱码分词器和分词词库分离，降低更新分词器版本难度分词器配置统一在library.properties中，在solr/WEB-INF/cla...

分类：其他好文时间：2014-07-13 08:04:32 阅读次数：268

NLP：中文分词---正向匹配（Forward Matching）

在采用FMM （正向最大匹配）进行中文分词的时候，可能会存在比较多的交集歧义，这个时候为了解决交集歧义的问题，可以采用 FM （Forwar Matching，正向匹配）进行中文分词，正向匹配会在最大匹配的路径上查找所有可能成词的term(这里所有可能成词的term的意思是在构建索引的时候所有切分出来的词，因为不是路径上的所有节点都会是切分成的词)。 http://blo...

分类：其他好文时间：2014-07-12 22:23:26 阅读次数：383

NLP: 中文分词算法--正向最大匹配 Forward Maximum Matching

最近接触NLP中文分词，在lunr.js的基础上，实现了中文的最大正向匹配分词。某些情况下，我们在服务器端进行中文文本分词可以使用完整的基于mmseg算法的分词模块，例如nodejieba, node-segment，盘古分词等等，但是在客户端环境下，我们不能使用这些复杂的分词算法进行分词，这个时候可以根据已经生成的索引进行简单的客户端分词，就是所说的FMM (Forwar...

分类：其他好文时间：2014-07-12 22:18:57 阅读次数：301

全文索引搜索whoosh（2）

承接前面对whoosh的文章，继续：写索引文件下面开始写入索引内容，过程如下： writer = ix.writer() writer.add_document(title=u"my document", content=u"this is my document", path=u"/a", tags=u"firlst short", icon=u"/icons/star.p...

分类：其他好文时间：2014-07-12 20:22:08 阅读次数：342

NLP: 中文分词算法---交集歧义检测 (cross ambiguity detect)

中文分词中存在交集歧义检测问题，例如“互联网金宝” 可以切分为“互联网” 和“金宝”，也可以切分为“互联”和“网金宝”，如何在切分过程中检测是否有交集歧义发生，以及如果存在交集歧义的话怎么处理切分问题，是非常重要的话题。这里，可以采用FMM算法进行切分，首先切分出最大的正向匹配，然后进行交集歧义检测，如果检测到存在交集歧义，那么对可能存在歧义的一段文字进行FM切分，获取所有的可能切分结果；然后对剩下的query子句重复进行FMM切分，直到query == null...

分类：其他好文时间：2014-07-12 18:26:14 阅读次数：264

Sphinx+MySQL5.1x+SphinxSE+mmseg中文分词

什么是Sphinx Sphinx 是一个全文检索引擎，一般而言，Sphinx是一个独立的搜索引擎，意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持，也支持从标准输入读取特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBMS的原...

分类：数据库时间：2014-07-09 11:22:17 阅读次数：310

第四章谈谈中文分词

1.中文分词的演变由于中文等语言，字与字之间是没有空格隔开的，所以需要分词。最简单的分词就是查字典。就是从左到右或者从右到左扫描一句话，然后找到最长的匹配。这种方法可以解决七八成的分词问题。但是毕竟太简单了一点。后来哈工大王晓龙博士把查字典方法理论化，发展成最少词数的分词理论，即一句话应该分成数量最...

分类：其他好文时间：2014-06-27 11:11:41 阅读次数：179

elasticsearch中文分词（mmseg）——手动添加词典

elasticsearch本身的中文分词插件效果都不理想，手动添加词典可以在一定程度上进行弥补。经过多次实验发现，mmseg的分词机制采用正向最长匹配算法，例如，针对“小时代”这个单词，其自带的词典中没有包含该词，故当用户搜索小时代时，检索不到任何结果。在咸鱼老婆的虚心指导下，我终于找到了解决办法。手动添加该词到mmseg的词库中，有两种方法： 1、将该词加入到自带的某个词典中（非停...

分类：其他好文时间：2014-06-27 09:30:33 阅读次数：232

几款开源的中文分词系统

中文分词是做好中文内容检索、文本分析的基础，主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位，而词与词之间并不像英语一样有空格来分隔，因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统中文词法分析是中文信息处理...

分类：其他好文时间：2014-06-26 22:35:29 阅读次数：298

基于隐马尔可夫模型的有监督词性标注

代码下载：基于隐马尔可夫模型的有监督词性标注词性标注（Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性，也就是要确定每个词是名词、动词、形容词或其他词性的过程，又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。词性标注本质上是...

分类：其他好文时间：2014-06-24 20:05:51 阅读次数：233