2.1 jieba 2.1.1 jieba简介 Jieba中文含义结巴,jieba库是目前做的最好的python分词组件。首先它的安装十分便捷,只需要使用pip安装;其次,它不需要另外下载其它的数据包,在这一点上它比其余五款分词工具都要便捷。另外,jieba库支持的文本编码方式为utf-8。 Jie ...
分类:
其他好文 时间:
2020-03-31 14:23:24
阅读次数:
282
wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概。 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前,首先要做一些准备工作 1.安装结巴分词库 pip install jieba Python中的分词 ...
分类:
编程语言 时间:
2020-03-30 16:11:09
阅读次数:
85
热词图很酷炫,也非常适合热点事件,抓住重点,以图文结合的方式表现出来,很有冲击力。下面这段代码是制作热词图的,用到了以下技术:jieba,把文本分词wordcloud,制作热图chardet,辨别文件的编码格式,其中中文统一为GB18030,更加的兼容imageio,提取图片的形状其他:自动识别文件 ...
分类:
编程语言 时间:
2020-03-30 00:01:50
阅读次数:
476
ing是在动词进行时后, ed是动词过去式或过去分词, er一般是在动词转化为对应名词(表示对应的人) 例如teach动词,教授 teacher名词,教师 helping (现在进行时) helped 协助(过去时) helper 帮手 帮助器 { 【现在分词】 一般情况下动词原形直接加ing 例 ...
分类:
其他好文 时间:
2020-03-29 18:14:22
阅读次数:
119
安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间的关联概率 -汉字间概率大的组成词组,形成分词结果 -除了分词,用户还可以添加自定义的词组 jieb ...
分类:
其他好文 时间:
2020-03-28 18:10:53
阅读次数:
563
NLP = NLU + NLG 分词 工具: 1、 "jieba" 2、 "SnowNLP" 3、 "LTP" 前向最大匹配(forward max matching) ...
分类:
其他好文 时间:
2020-03-27 22:02:02
阅读次数:
132
本文将介绍在springboot中整合solr。 1、前提约束 完成solr中的分词、停词以及扩展词库配置 https://www.jianshu.com/p/0e6f4f4a6505 2、操作步骤 创建一个springboot项目 https://www.jianshu.com/p/de979f5 ...
分类:
编程语言 时间:
2020-03-26 21:19:32
阅读次数:
69
分词api: 指定分词器进行分词 POST /_analyze { "analyzer": "standard", "text": "hello world" } 指定索引分词 POST /fan/_analyze { "analyzer": "standard", "field": "hobby" ...
分类:
其他好文 时间:
2020-03-25 23:20:35
阅读次数:
65
1.修改索引 更新索引是先删除再添加,建议对更新需求采用此方法,并且要保证对已存在的索引执行更新,可以先查询出来,确定更新记录存在执行更新操作。 如果更新索引的目标文档对象不存在,则执行添加。 /** * 修改索引库 */ @Test public void testUpdateIndex() th ...
分类:
Web程序 时间:
2020-03-22 20:01:34
阅读次数:
86
问题:使用pynlpir分词,遇到License过期问题 抛出异常:pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update". 解决方法:下载下面链接文件,替换原有的NLPIR.u ...
分类:
其他好文 时间:
2020-03-22 16:07:20
阅读次数:
232