1.安装docker sudo apt-get install docker.io 2.获取ltp的docker容器 dockerfile文件在 https://github.com/HIT-SCIR/ltp/blob/master/Dockerfile 下面。获取docker配置文件后 docke ...
分类:
其他好文 时间:
2019-11-25 18:22:04
阅读次数:
56
1、jieba jieba分词库的使用 2、wordcloud wordcloud词云库的使用 wordcloud词云绘图 3、turtle 彩色蟒蛇绘制 七段数码管绘制 ...
分类:
其他好文 时间:
2019-11-23 12:48:01
阅读次数:
60
此文摘自https://www.cnblogs.com/hengzhi/p/9290667.html ES默认对英文文本的分词器支持较好,但和lucene一样,如果需要对中文进行全文检索,那么需要使用中文分词器,同lucene一样,在使用中文全文检索前,需要集成IK分词器。 可以从GitHub上获取 ...
分类:
其他好文 时间:
2019-11-21 16:45:12
阅读次数:
69
C# Net 比较2个字符串的相似度(使用余弦相似度) 复制代码使用: /// <summary> /// 比较2个字符串的相似度(使用余弦相似度) /// </summary> /// <param name="str1"></param> /// <param name="str2"></par ...
文本分析概念 停用词 语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用 某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取 相似度 分词 语料库 词频 词频向量 整体流程 语料清洗 (去掉停用词, 去掉大 ...
分类:
其他好文 时间:
2019-11-18 16:56:51
阅读次数:
240
结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen ...
分类:
编程语言 时间:
2019-11-18 15:38:18
阅读次数:
73
先写个标题,慢慢更新 默认的词库就算最小细粒度分词,很多名次也不会单字分词 比如:阿迪达斯,在IK是一个词,搜索每个字的单词关键词是无结果的,必须搜索阿迪达斯才有结果 所以我们需要扩展词库 IK官方教程 https://github.com/medcl/elasticsearch-analysis- ...
分类:
其他好文 时间:
2019-11-18 12:39:41
阅读次数:
95
安装 参考:https://www.cnblogs.com/zrmw/p/10869325.html 分词: 注意先分句再分词 ,这些对象均来自nltk.tokenize库 1. word_tokenize 导入nltk的tokenize库后,tokens = nltk.word_tokenize( ...
分类:
其他好文 时间:
2019-11-16 21:26:17
阅读次数:
82
spring cloud,其实一样的,我单独加一个模块做搜索 添加pom 完整的pom bootstrap.yml配置 添加entity实体 添加索引的设置,索引创建,分词,索引映射 在resource下添加两个文件 search-mapping.json search-setting.json 添 ...
分类:
编程语言 时间:
2019-11-16 17:44:08
阅读次数:
84
1.准备好Elasticsearch环境,这里使用的是window版本。 1.从官网下载安装包:https://www.elastic.co/cn/downloads/past-releases/elasticsearch-5-6-16 2.分词器 elasticsearch-analysis-ik ...
分类:
编程语言 时间:
2019-11-15 20:21:16
阅读次数:
63