描述 使用Ubuntu 20.04自带的Intelligent Pinyin输入很难受,错字连篇,急需常用词汇!!! 解决 开启输入法Preference启用Dictionary后重启输入法 候选词推荐精度显著提升! ...
分类:
系统相关 时间:
2021-06-18 18:57:43
阅读次数:
0
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
其他好文 时间:
2020-12-09 12:09:11
阅读次数:
6
IK分词器虽然自带词库 但是在实际开发应用中对于词库的灵活度的要求是远远不够的,IK分词器虽然配置文件中能添加扩展词库,但是需要重启ES 这章就当写一篇扩展了 其实IK本身是支持热更新词库的,但是需要我感觉不是很好 词库热更新方案: 1:IK 原生的热更新方案,部署一个WEB服务器,提供一个Http ...
分类:
数据库 时间:
2020-09-18 00:20:51
阅读次数:
45
上一篇文章中用PHP的FFI成功了调用了cjieba,但是速度实在是慢,4个函数循环调用20次,用了居然1分50多秒,而且C版本只比PHP快一点点,看来是cjieba本身慢了。 这次发现了一个golang的分词库gse,试试导出为动态库,用FFI加载。 碰到的问题 不能导出go指针 由于之前对cgo ...
分类:
Web程序 时间:
2020-08-13 12:13:52
阅读次数:
127
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
其他好文 时间:
2020-07-04 01:18:52
阅读次数:
87
工作中遇到一个需求,需要从词库中快速判断某个关键字是否存在,词库大小不超过百万,当时脑子第一反应是用hash表相关数据结构,和同事一交流,同事推荐用布隆过滤器,查询效率不输hashmap,而且非常节省存储空间。经过研究发现布隆过滤器挺好用的,这篇文章来说说三点: 1.什么是布隆过滤器。 2.布隆过滤 ...
分类:
其他好文 时间:
2020-07-01 15:48:38
阅读次数:
57
参考: https://github.com/raulmur/ORB_SLAM2/pull/21/commits/4122702ced85b20bd458d0e74624b9610c19f8cc 然后编译 cd /home/jo/workspace/orb_demo/src/ORB_SLAM2 ch ...
分类:
其他好文 时间:
2020-06-25 19:46:54
阅读次数:
61
在用户输入一个单词的时候,判断这个单词是否拼写错误,如果拼写错误,找到正确的单词并且返回。 思路: 1.准备词库 2.判断一下输入的单词是否在词库中,如果在,输出 3.如果不在,找到与之相对的编辑距离为1的所有单词 4.遍历这些单词,并输出在吃苦中出现次数最多的单词 中文单词拼写检查思路: 1.用所 ...
分类:
其他好文 时间:
2020-06-25 11:30:22
阅读次数:
51
一、安装搜索框架、引擎、分词库 pip install whoosh django-haystack jieba 二、配置 注册haystack框架: 配置搜索引擎、索引文件路径、自动更新索引文件: HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'h ...
分类:
其他好文 时间:
2020-06-18 01:57:29
阅读次数:
89
from pyhanlp import * def load_dictionary(): """ 加载HanLP中的mini词库 :return: 一个set形式的词库 """ IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil') path = H ...
分类:
其他好文 时间:
2020-06-17 23:47:36
阅读次数:
83