主要知识点: 知道IK默认的配置文件信息 自定义词库 一、ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起 quantif... ...
分类:
其他好文 时间:
2018-03-08 22:56:58
阅读次数:
198
WordMap类从分词库中读入分词 将分词存入unordered_map<std::string, int> 中 从文本中读入,对文本进行分词,分词方法详见 http://yangshangchuan.iteye.com/blog/2031813 以下是实现 样例程序 github:https:// ...
分类:
其他好文 时间:
2018-02-26 13:27:18
阅读次数:
184
Win10自带输入法 界面比较简洁美观,记住选择方面比较不错,但是词库可能比较尴尬 ,常用的不是第一。短期很难刺激,单行其使用还是不错的。 ...
分类:
其他好文 时间:
2018-01-25 10:58:37
阅读次数:
120
# 运行环境要求 python2 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import struct 5 import sys 6 import binascii 7 import pdb 8 #搜狗的scel词库就是保存的文本的unico... ...
分类:
其他好文 时间:
2018-01-12 19:03:43
阅读次数:
1584
Flashtext:大规模数据清洗的利器 在这篇文章中,我们将介绍一种新的关键字搜索和替换的算法:Flashtext 算法。Flashtext 算法是一个高效的字符搜索和替换算法。该算法的时间复杂度不依赖于搜索或替换的字符的数量。比如,对于一个文档有 N 个字符,和一个有 M 个词的关键词库,那么时 ...
分类:
其他好文 时间:
2018-01-07 16:11:00
阅读次数:
267
原始资料: https://www.cnblogs.com/toolgood/p/6284718.html 网站敏感词过滤的实现(附敏感词库) http://blog.csdn.net/shuyou612/article/details/74931955 ...
分类:
其他好文 时间:
2017-12-26 14:24:14
阅读次数:
160
Part One 【探路者】选题展示视频链接: http://www.iqiyi.com/w_19rv0segft.html Part Two 【贪吃蛇】阿尔法发布视频截图 1首先展示了新添加的欢迎界面。并加入了词库选择功能 2.展示了对界面的美化。 3. 展示了新加入的音乐功能 4.后半部分是整体 ...
分类:
其他好文 时间:
2017-11-23 08:20:38
阅读次数:
141
简介 支持分词模式Search模式,用于对用户查询词分词Index模式,用于对索引文档分词特性支持多种分词模式全角统一转成半角用户词典功能conf 目录有整理的搜狗细胞词库因为性能原因,最新的快照版本去除词性标注,也希望有更好的 Pull Request 可以提供该功能。 简单使用 获取jieba- ...
分类:
编程语言 时间:
2017-11-07 16:26:25
阅读次数:
316
最近在学习处理自然语言处理,就发现LTP的(哈工大语言云),这个比我最先使用的jieba分词更好,词库更大,功能也更强大。 这里介绍两种方法:1、调用LTP的API,2、使用pyltp,这里的方法基于python,对于其它语言的使用的请大家了解这里:LTP 3.3文档 1、调用LTP的API ①进入 ...
分类:
编程语言 时间:
2017-10-13 13:55:33
阅读次数:
359
java中HashMap类表示为字典类,其中key,value一一对应的原则。因此是词典查询的首要工具。(HashMap字典类字面意思也可以看出~~) 程序思路: 程序开始前,应先创建一个字典文本用于单词词库的存储。 先读取文本文件,因为每行为一个单词和其释义,所以采用逐行读取的方法。 将每行的单词 ...
分类:
编程语言 时间:
2017-10-13 11:13:52
阅读次数:
276