翻译来源 "https://www.nayuki.io/page/next lexicographical permutation algorithm" 简介 假设对于一个有限长度的数组序列(0, 3, 3, 5, 8),需要生成对应的所有全排列。有什么好的办法做到? 最原始的方案是使用自顶向下的递 ...
分类:
编程语言 时间:
2017-12-14 03:40:59
阅读次数:
189
搜索引擎里有一个很重要的话题,就是文本纠错,主要有两种做法,一是从词典纠错,一是分析用户搜索日志,今天我们探讨使用基于词典的方式纠错,核心思想就是基于编辑距离,使用BK树。下面我们来逐一探讨: ...
分类:
其他好文 时间:
2017-11-21 14:50:50
阅读次数:
200
系统中使用的情感分析技术我们采用的是基于词典的情感分析,情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等。情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应 ...
分类:
其他好文 时间:
2016-09-08 09:46:40
阅读次数:
124
三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法
定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配
按照长度的不同:最大匹配和最小匹配
1.1正向最大匹配思想MM
从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。
查找大机器词...
分类:
其他好文 时间:
2016-06-17 12:56:42
阅读次数:
239
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自...
分类:
编程语言 时间:
2015-08-29 11:19:29
阅读次数:
247
1. Chinese Segmentation Introduction最近两天系统的研究了一下中文分词算法,在这里做个简单的总结。中文分词可以分为(1)基于词典的分词 和(2)非基于词典的分词。
基于词典的分词包括:
* MMSEG
* Forward/Backward matching
* 最小切分非基于词典的分词主要是通过统计学计算概率的方法进行中文分词,例如CRF, is p...
分类:
其他好文 时间:
2015-07-06 16:06:51
阅读次数:
242
算法描述:S1为带切分字符串,S2为空,MaxLen为词典中的最大词长判断S1是否为空,若是则输出S2从S1左边开始,取出待处理字符串str(其中str的长度小于MaxLen)查看str是否在词典中,若是则转5,若否则转6S2+=str+”/”,S1-=str,转2将str最右边的一个字去掉判断st...
分类:
编程语言 时间:
2015-05-25 22:19:22
阅读次数:
137
算法描述:S1为带切分字符串,FMM为S1正向最大匹配切分结果,BMM为S1逆向最大匹配切分结果如果FMM和BMM长度不相等则输出长度较短的那个否则转3如果FMM和BMM的结果相同则输出任意一个否则输出单个字字数最少的结果Java实现代码: 1 public static List SegDoubl...
分类:
编程语言 时间:
2015-05-25 21:58:18
阅读次数:
144
算法描述:S1为带切分字符串,S2为空,MaxLen为词典中的最大词长判断S1是否为空,若是则输出S2从S1右边开始,取出待处理字符串str(其中str的长度小于MaxLen)查看str是否在词典中,若是则转5,若否则转6S2+=str+”/”,S1-=str,转2将str最左边的一个字去掉判断st...
分类:
编程语言 时间:
2015-05-25 21:55:18
阅读次数:
137
在使用?基于词典?的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 ...
分类:
编程语言 时间:
2015-05-09 20:39:14
阅读次数:
708