From:http://blog.csdn.net/changong28/article/details/38491185索引重建(Rebuild) 索引创建后,你可以在索引当中添加新的类型,在类型中添加新的字段。但是如果想修改已存在字段的属性(修改分词器、类型等),目前ES是做不到的。如果确实存在...
分类:
其他好文 时间:
2014-11-21 16:08:57
阅读次数:
199
Sphinx是由俄罗斯人AndrewAksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。由于开发要求Sphinx中文分词,安装环境,就做下笔记[root@localhostmmseg-3.2.14]#yum-yinstallmakegccg++gcc-c++libtoolautoconfautomakeimake
[..
分类:
其他好文 时间:
2014-11-20 15:34:22
阅读次数:
138
本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库)、CoNLL格式相关工具,以及提供两个公开的中文依存语料库下载。最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐,感觉HanLP初具雏形。现在希望拿下依存句法分析,这样我就做出了史上第一个(?)民间句法分...
分类:
其他好文 时间:
2014-11-19 21:59:55
阅读次数:
256
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。
lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。
以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词):
先自定义...
分类:
Web程序 时间:
2014-11-19 18:47:09
阅读次数:
265
词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,...
分类:
其他好文 时间:
2014-11-19 17:56:35
阅读次数:
152
做分词组件时,有网友提出采用Hashtable 数据结构查找字符串效率较低,建议改为Dictionary,其理由是采用Hashtable 时Key值是object 会触发装箱和拆箱动作,一直对这种说法表示怀疑,因为我理解只有值类型和引用类型通过object 互转时才会发生装箱和查询,引用类型之间强制...
TokenStream: 分词器做好处理之后得到的一个流。这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元。
以下是把文件流转换成分词流(TokenStream)的过程
首先,通过Tokenizer来进行分词,不同分词器有着不同的Tokenzier,Tokenzier分完词后,通过TokenFilter对已经分好词的数据进行过滤,比如停止词。过滤完之后,把所有的数据组合成一个TokenStream;...
分类:
Web程序 时间:
2014-11-17 22:56:37
阅读次数:
458
自动摘要(利用计算机自动地从原始文献中提取文摘)指代消解语篇分析机器翻译形态学分割命名实体识别自然语言生成自然语言理解光学字符识别标注词性解析问答关系提取破句(又称句界歧义)情感分析语音识别语音分割主题分割与识别分词词义消歧信息检索信息抽取语音处理
分类:
其他好文 时间:
2014-11-16 22:51:19
阅读次数:
202
描述了使用pyInstaller打包使用jieba分词的文件时出现的一种错误,分析了导致该错误的原因,最后给出了解决方案。
分类:
其他好文 时间:
2014-11-16 18:38:09
阅读次数:
1708
给开发加了个pdf信息提取优化任务。弄了半天发现服务器也是个好东西。这周末可以和爬虫讨论整合的问题了。 MemberToday’s taskNext task林豪森协助测试及服务器部署协助测试及服务器部署宋天舒服务器程序部署服务器程序部署及运行测试张迎春整合测试分词算法修复整合存在的bug黄漠源.....
分类:
其他好文 时间:
2014-11-14 19:25:39
阅读次数:
188