标签:lsp package https 字典 viterbi ring 配置 aic 官方
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。
中文分词(Chinese Word Segmentation)指的是将一个汉字序列(句子)切分成一个一个的单独的词,分词就是将连续的字序列按照一定的规则重新组合成词序列的过程。
现在分词方法大致有三种:基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。
今天为大家分享一个国内使用人数最多的中文分词工具GoJieba,源代码地址:GoJieba ,官方文档:GoJieba官方文档
官方介绍
模式扩展
主要算法
编码实现
运行结果
性能评测
语言 | 源码 | 耗时 |
C++版本 | CppJieba | 7.5 s |
Golang版本 | GoJieba | 9.11 s |
Python版本 | Jieba | 88.7 s |
计算分词过程的耗时,不包括加载词典耗时,CppJieba性能是GoJieba的1.2倍。CppJieba性能详见jieba-performance-comparison,GoJieba由于是C++开发的CppJieba,性能方面仅次于CppJieba,如果追求性能还是可以考虑的。
标签:lsp package https 字典 viterbi ring 配置 aic 官方
原文地址:https://www.cnblogs.com/guichenglin/p/12718424.html