SegmentSegment是基于结巴分词词库实现的更加灵活,高性能的java分词实现。变更日志创作目的分词是做NLP相关工作,非常基础的一项功能。jieba-analysis作为一款非常受欢迎的分词实现,个人实现的opencc4j之前一直使用其作为分词。但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。有很多功能无法指定关闭,比如HMM对于繁简体转换是无用的,因为繁体词是固定的,不需要预
分类:
编程语言 时间:
2020-01-15 09:22:12
阅读次数:
100
有鉴于谷歌搜狗拼音等不太好用,但是博主一直页没找到合心的输入法,直到遇见Rime,中州韵就是我想要的输入法。记录一下自己用的时候的修改,以备查询。注意:缩进不要弄丢,所有更改完都需要重新部署才能生效。一、输入方案切换如简繁,在已启动 RIME条件下,按Ctrl+grave(Tab上面那个键)或者F4... ...
分类:
其他好文 时间:
2019-12-14 09:55:50
阅读次数:
944
情况1:酷Q Air版本可以使用,而Pro版本无法运行 解决方法如下: 首先去官网下载一个Por版本试一下,提示成功安装。 不行的话Por压缩包不要删除, 去官网下载Air版本(推荐下载小i词库) 解压之后打开exe进行安装,Air安装成功之后立马去解压Pro安装 上面办法如果还是不行,就把Air的 ...
分类:
其他好文 时间:
2019-12-04 18:36:23
阅读次数:
178
前言 中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。 jieba 分词 jieba 安装 (1)P ...
分类:
其他好文 时间:
2019-12-02 16:51:41
阅读次数:
77
1、jieba jieba分词库的使用 2、wordcloud wordcloud词云库的使用 wordcloud词云绘图 3、turtle 彩色蟒蛇绘制 七段数码管绘制 ...
分类:
其他好文 时间:
2019-11-23 12:48:01
阅读次数:
60
先写个标题,慢慢更新 默认的词库就算最小细粒度分词,很多名次也不会单字分词 比如:阿迪达斯,在IK是一个词,搜索每个字的单词关键词是无结果的,必须搜索阿迪达斯才有结果 所以我们需要扩展词库 IK官方教程 https://github.com/medcl/elasticsearch-analysis- ...
分类:
其他好文 时间:
2019-11-18 12:39:41
阅读次数:
95
我们在运营网站时,有时会有修改特定文字的需求,比如替换一些特定的关键词、不可用的网址等,少量的话我们替换就好了,但是对于一些内容比较多的站点手工的方法就非常麻烦了我们可以用一些简单的方法,比如宝塔专业版中的敏感文字替换功能其实这个功能叫做文字替换更合适一些,因为它并不像一些程序中提供的词库,而是让管 ...
分类:
Web程序 时间:
2019-11-18 09:15:17
阅读次数:
364
TF-IDF TF-IDF统计的是词库所有词的出现频率与在文件级出现频率的倒数的对数乘积。 TF:即词语出现的频率。 IDF:记每个词出现的文件数为 file_i,总文件数为file_num,IDF[I] = log(file_num/(1+file_i)) TF-IDF = TF * IDF 1 ...
分类:
其他好文 时间:
2019-11-15 14:00:32
阅读次数:
56
题意 这道题的题目描述让我好一阵蒙,简述一下题意吧: 给定一些字母的价值(如图所示),给出一个字符串(长度在$3$到$7$之间,可以出现重复的字母)和一个单词库。定义一个单词的价值就是它的字母的价值之和,一组单词的价值就是所有单词的价值之和,一组单词中的单词数量$>=1$,一组单词中的单词可以重复。 ...
分类:
其他好文 时间:
2019-11-06 22:49:55
阅读次数:
105
一.jieba模块基本介绍 jieba是优秀的第三方中文词库 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 二.jieba库的使用说明 精确模式:将句子最精确的分开,适合文本分析 ...
分类:
其他好文 时间:
2019-11-01 18:24:16
阅读次数:
385