1. 下载或者编译 IK 分词器的 jar 包文件,然后放入 ...\apache-tomcat-8.5.16\webapps\solr\WEB-INF\lib\ 这个 lib 文件目录下; IK 分词器下载地址:http://download.csdn.net/download/qq_353185 ...
分类:
其他好文 时间:
2018-02-07 14:39:45
阅读次数:
110
1. 前言 隐马尔科夫HMM模型是一类重要的机器学习方法,其主要用于序列数据的分析,广泛应用于语音识别、文本翻译、序列预测、中文分词等多个领域。虽然近年来,由于RNN等深度学习方法的发展,HMM模型逐渐变得不怎么流行了,但并不意味着完全退出应用领域,甚至在一些轻量级的任务中仍有应用。本系列博客将详细 ...
分类:
编程语言 时间:
2018-02-03 15:53:33
阅读次数:
975
全文检索插件flask-msearch 一、安装 二、修改表结构 三、添加检索的视图函数 四、创建更新删除索引 五、自定义分词系统 六、配置文件 参考于:这里 ...
分类:
其他好文 时间:
2018-02-02 14:31:01
阅读次数:
571
simhash算法 方法介绍 背景 如果某一天,面试官问你如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路: 一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇 ...
分类:
编程语言 时间:
2018-02-02 11:40:12
阅读次数:
204
特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号 卡方独立检验 ...
分类:
编程语言 时间:
2018-01-31 20:24:50
阅读次数:
1193
python安装Jieba中文分词组件 1、下载http://pypi.python.org/pypi/jieba/ 2、解压到解压到python目录下: 3、“win+R”进入cmd;依次输入如下代码: 测试 在PyCharm里写一个中文分词的小程序: fenCi.py 运行结果: ps:另外一种 ...
分类:
编程语言 时间:
2018-01-29 11:42:16
阅读次数:
986
JAVA课程设计 基于学院网站的搜索引擎 对学院网站进行抓取、建索(需要中文分词)、排序(可选)、搜索、摘要显示。可以是GUI界面,也可以是Web界面。 一、团队介绍 |学号|班级|姓名|简介| |: :|: :|: :|: :| |201621123049|网络1612|[组长]袁德兴|热衷于网络 ...
分类:
编程语言 时间:
2018-01-25 19:53:57
阅读次数:
264
{ "query": { "bool" : { "filter" : { "script" : { "script" : { "inline": "params._source.text_content==''" , ... ...
分类:
其他好文 时间:
2018-01-25 14:19:03
阅读次数:
957
维特比乍法是一个特殊但应用最广的动态规划算法,可以解决任何一个图中的最短路径问题。 这个算法是针对一个特殊的图——篱笆网络的有向图的最短路径提出的。 这个算法之所以重要,是因为凡是使用隐含马尔科夫模型描述的问题都可以用它来解码,包括今天 的数字通信,语音识别,拼音转汉字,分词等。 算法基础: 1、如 ...
分类:
编程语言 时间:
2018-01-22 11:10:18
阅读次数:
204
安装步骤 https://github.com/medcl/elasticsearch-analysis-ik 以插件形式安装: ...
分类:
其他好文 时间:
2018-01-21 13:46:05
阅读次数:
153