标签:
在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢?
下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词:
人名识别:[我, 爱, 杨, 尚, 川] 识别到人名:爱杨尚 识别到人名:杨尚川 识别到人名:尚川 开始从多个识别结果中选择一个最佳的结果:[[我, 爱杨尚/nr, 川], [我, 爱, 杨尚川/nr], [我, 爱, 杨, 尚川/nr]] 1、开始处理:[我, 爱杨尚/nr, 川] 忽略已经标注过的词:爱杨尚/nr 词序列:[我/r, 爱杨尚/nr, 川/l] 的词性序列:r n l 长度的负值也作为分值:-3 评分结果:-3 2、开始处理:[我, 爱, 杨尚川/nr] 忽略已经标注过的词:杨尚川/nr 词序列:[我/r, 爱/v, 杨尚川/nr] 的词性序列:r v n v n词序增加分值:1 长度的负值也作为分值:-3 评分结果:-2 3、开始处理:[我/r, 爱/v, 杨, 尚川/nr] 忽略已经标注过的词:爱/v 忽略已经标注过的词:我/r 忽略已经标注过的词:尚川/nr 词序列:[我/r, 爱/v, 杨/nr, 尚川/nr] 的词性序列:r v n n v n词序增加分值:1 长度的负值也作为分值:-4 评分结果:-3 选择结果:[我/r, 爱/v, 杨尚川/nr]
标签:
原文地址:http://my.oschina.net/apdplat/blog/411032