1.分词 全文检索必须要分词,所谓分词就是把一句话切分成一个个单独的词。分词有很多算法,比如自然分词、n-gram分词、字典分词等等。对中文来说没有自然分隔符,一般采用字典分词,再加上对人名、地名的特殊处理,提高分词的准确性。 我们使用ik分词组件,ik有两种分词策略:smart策略、max wor ...
分类:
其他好文 时间:
2016-08-18 11:13:13
阅读次数:
312
今天想通过一些数据,来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQLSERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误 奇怪了,我的SQL语句中没有LIMIT,这LIMIT哪来的。我翻...
分类:
数据库 时间:
2015-12-04 01:01:56
阅读次数:
284
这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集.....
分类:
编程语言 时间:
2015-12-03 00:15:40
阅读次数:
463
字典分词 代码(C)本文地址:http://blog.csdn.net/caroline_wendy给定字典, 给定一句话, 进行分词.使用深度遍历(DFS)的方法.使用一个參数string, 保存当前分支的分词后的句子; 使用一个參数vector, 保存全部可能的组合.使用一个验证函数, 推断句子...
分类:
编程语言 时间:
2015-05-18 12:32:33
阅读次数:
143
字典分词 代码(C)本文地址: http://blog.csdn.net/caroline_wendy给定字典, 给定一句话, 进行分词. 使用深度遍历(DFS)的方法.使用一个参数string, 保存当前分支的分词后的句子; 使用一个参数vector, 保存所有可能的组合.使用一个验证函数, 判断句子是否可以分词.代码:/*
* main.cpp
*
* Created on: 2014...
分类:
其他好文 时间:
2014-09-19 10:13:35
阅读次数:
288