首先,不知道大家在前面的例子中没有试着搜索文本串,就是在第二节,我们添加了很多文档。如果字段值是一个文本。你如果只搜索这个字段的某个单词,是不是发现搜不到?这就是因为我们没有配置Analyzer,因此在搜索的时候会“全匹配”。可以从直观感觉上理解为SQL的 like和= 的区别。通过前面这段引文,我...
分类:
其他好文 时间:
2015-05-29 09:53:00
阅读次数:
229
书接上文,考虑4个核心功能的实现,先考虑:数据预处理和按纬度统计。1、数据预处理1.1、基本原则首先,考虑数据的格式。业务数据是保存在关系型数据库中的。数据分析的部分,我们将使用Weka,虽然Weka习惯ARFF格式,为了实现数据分析和提取的自动化,我们将通过Weka的JDBC接口为其提供数据。这样,可以使用ETL工具或者通过程序代码执行SQL实现数据提取和格式转换。
在开发阶段,我们基本上可以将...
分类:
其他好文 时间:
2015-05-29 08:40:35
阅读次数:
183
在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下: 2、在IKAnalyzer相关的jar包(IKAnalyzer2012_u6.jar 本博客不提供下载)放在{SOLR_HOME}...
分类:
其他好文 时间:
2015-05-28 15:59:39
阅读次数:
218
如果问大家做搜索核心的环节是什么,估计很多人会答分词;好的分词的确可以让内容构建索引和搜索变得更精细;到底有了一个好的分词算法是不是就能使搜索变得更精准可靠呢?但从这一段时间深入了解搜索业务知识后才发现...
分类:
其他好文 时间:
2015-05-28 12:46:25
阅读次数:
146
1、业务背景某业务内容为短文本,5字或200字左右,针对某个专题,有附属属性。
提交人为非专业用户。提交后,专家进行审核,某几个专家针对某个行政区划。对审核不通过的内容,专家会给出修改建议。业务量较大,单次审核周期一般在1~3个工作日。如果能够提高一次通过率,将直接提高系统效率。对于5字左右短文本,如果能够智能审核,减轻专家工作量,也将对系统整体效率带来促进。2、业务分析有几件事情可以做:
分析历...
分类:
其他好文 时间:
2015-05-28 07:07:00
阅读次数:
154
算法描述:S1为带切分字符串,S2为空,MaxLen为词典中的最大词长判断S1是否为空,若是则输出S2从S1左边开始,取出待处理字符串str(其中str的长度小于MaxLen)查看str是否在词典中,若是则转5,若否则转6S2+=str+”/”,S1-=str,转2将str最右边的一个字去掉判断st...
分类:
编程语言 时间:
2015-05-25 22:19:22
阅读次数:
137
算法描述:S1为带切分字符串,FMM为S1正向最大匹配切分结果,BMM为S1逆向最大匹配切分结果如果FMM和BMM长度不相等则输出长度较短的那个否则转3如果FMM和BMM的结果相同则输出任意一个否则输出单个字字数最少的结果Java实现代码: 1 public static List SegDoubl...
分类:
编程语言 时间:
2015-05-25 21:58:18
阅读次数:
144
算法描述:S1为带切分字符串,S2为空,MaxLen为词典中的最大词长判断S1是否为空,若是则输出S2从S1右边开始,取出待处理字符串str(其中str的长度小于MaxLen)查看str是否在词典中,若是则转5,若否则转6S2+=str+”/”,S1-=str,转2将str最左边的一个字去掉判断st...
分类:
编程语言 时间:
2015-05-25 21:55:18
阅读次数:
137
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。
一、版本信息
solr版本:4.7.0
需要ik-analyzer版本:IK Analyzer 2012FF_hf1
ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/dow...
分类:
其他好文 时间:
2015-05-22 13:33:37
阅读次数:
165