分词api: 指定分词器进行分词 POST /_analyze { "analyzer": "standard", "text": "hello world" } 指定索引分词 POST /fan/_analyze { "analyzer": "standard", "field": "hobby" ...
分类:
其他好文 时间:
2020-03-25 23:20:35
阅读次数:
65
本文介绍一些常用的无监督关键词提取算法:TF-IDF,TextRank,主题模型算法 一、TF-IDF算法 即词频-逆文档频次算法,其基本思想是想要找到这样的词:它在一篇文档中出现的频次高(TF),即说明这篇文档很有可能围绕这个词进行说明;但是并不在多篇文档中出现(IDF),即说明这个词对文档的区分 ...
分类:
其他好文 时间:
2020-03-10 21:55:57
阅读次数:
173
一、IK分词器简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3. ...
分类:
其他好文 时间:
2020-02-26 18:50:38
阅读次数:
82
ik分词是一款流行的elasticsearch 中文分词器,安装ik分词器版本一定要与所安装es版本一致。 安装步骤: 1、解压ik分词器安装包到plugin目录下,并删除压缩包。 2、重启elasticsearch进程即可。 3、如果是es集群的话,每台es都需要安装ik分词器。 测试: Curl ...
分类:
其他好文 时间:
2020-02-23 18:35:15
阅读次数:
92
讲授自然语言处理简介、RNN解决NLP问题的一般思路、中文分词、词性标注、命名实体识别、文本分类、机器翻译等具体问题。 大纲 自然语言处理简介RNN在NLP中的应用简介中文分词词性标注命名实体识别文本分类机器翻译 本集内容简介 这节课 ...
分类:
其他好文 时间:
2020-02-22 11:42:07
阅读次数:
53
https://github.com/sunkaifei/FlyCmshttps://github.com/wks/ik-analyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初 ...
分类:
其他好文 时间:
2020-02-20 14:57:09
阅读次数:
284
一. elasticsearch on windows 1.下载地址: https://www.elastic.co/cn/downloads/elasticsearch 如果浏览器下载文件慢,建议使用迅雷下载,速度很快。下载版本为7.5.2 2. 修改配置文件 下载后解压,找到config\jvm ...
分类:
Web程序 时间:
2020-02-18 12:39:39
阅读次数:
89
新浪微博可以在发言中嵌入“话题”,即将发言中的话题文字写在一对“#”之间,就可以生成话题链接,点击链接可以看到有多少人在跟自己讨论相同或者相似的话题。新浪微博还会随时更新热门话题列表,并将最热门的话题放在醒目的位置推荐大家关注。 本题目要求实现一个简化的热门话题推荐功能,从大量英文(因为中文分词处理 ...
分类:
其他好文 时间:
2020-02-12 14:53:47
阅读次数:
270
什么是分词 把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。 示例 如果想在某个索引下进行分词 es内置分词器 standard:默认分词,单词会被拆分,大小会转换为小写。 simple:按照非字母分词。大写转为小写。 ...
分类:
其他好文 时间:
2020-02-09 12:03:10
阅读次数:
87
介绍 为训练营课程 《Python 数据分析入门与进阶》的第八节,在该章节中我们将利用提供的课程数据来进行一次实战性质的时间序列和聚类分析。 知识点 数据处理 数据可视化 中文分词 文本聚类 数据概览 本次课程的数据来源于运行过程中产生的真实数据,我们对部分数据进行了脱敏处理。 首先,我们需要下载课 ...
分类:
编程语言 时间:
2020-02-07 15:14:00
阅读次数:
128