朴素贝叶斯算法是机械学习中比较简单中的算法,采用贝叶斯算法可以实现简单的分类技术。 文章中采用的数据训练库为 THUOCL:清华大学开放中文词库 数据格式为 : word , type (单词、类型) 如图所示: 算法执行步骤1.数据训练集2.格式化数据满足算法输入要求3.分析数据训练算法4.测试算 ...
分类:
编程语言 时间:
2019-01-17 19:51:22
阅读次数:
334
做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它的意思。 因此,中文分词技术一直是nlp领域中的一大挑战。Python 中有个比较著名的分词库是结... ...
分类:
编程语言 时间:
2019-01-15 12:09:22
阅读次数:
210
前言 之前写了一篇文章, "【输入法】Rime 中州韵 基本设置 附:官方定制指南" ,其中导入词库这一块引用其它博主的文章,最近发现那个工具链接已经过期了,参考了百度贴吧的说明,不要直接使用工具去导入会更好,这里使用原作者的做法为大家演示下 前提 安装好rime,无论是ibus rime或fcit ...
分类:
其他好文 时间:
2019-01-13 16:10:50
阅读次数:
375
可以用python实现一个自己的词典, 就是在网上下一个英汉词典,作为自己的词库,然后整理出一个json文件,存起来,查词时,直接读取查询: 处理时可以用正则表达式处理: https://www.cnblogs.com/zhumengdexiaobai/p/10060673.html 注意,字典的键 ...
分类:
编程语言 时间:
2019-01-06 14:28:33
阅读次数:
203
自从上学购置手机后,便一直使用手机自带输入法,也就是vivo输入法。以下是对自己这么长时间使用这款输入法的个人评价。 首先这款输入法界面简洁(图1),并没有其他输入法繁目众多的皮肤选择,可能是因为个人喜好,觉得挺好;另外,对于一款小众自带的输入法而言,词库的更新弥足重要(图2),及时更新时兴词汇更方 ...
分类:
其他好文 时间:
2018-12-17 02:43:21
阅读次数:
188
一. 中文分词技术 中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现能特殊场景,但太过于依赖语料的质量,因此实践中多是采用两者的结合,即混合分词。 1.1 规则分 ...
分类:
编程语言 时间:
2018-12-17 02:42:01
阅读次数:
173
手机搜狗输入法 用户界面:初始界面是一个简单清爽的界面,最上面一排小图标便于用户针对个人喜好习惯进行自定义。 记住用户选择:含有通讯录词库,本地化词库及可以和电脑合并的同步词库,可以记住用户输入习惯,软件本身也可以记住用户设置的各方面需求。 短期刺激:具备查找表情包功能,增大用户粘性,在手写和键盘输 ...
分类:
其他好文 时间:
2018-12-16 23:36:48
阅读次数:
160
这次是 搜狗输入法 的使用评价 用户界面:简单大方,功能齐全而且可以根据自己的喜好换皮肤 记住用户选择:第一次输入一句话,一个短语或者一个名字后,再次输入时第二个词就是上次用过的那个词 短期刺激:添加的新功能,新界面会让人喜欢 长期刺激:简单大方,方便快捷使用户操作很舒服 避免用户出现简单错误:搜狗 ...
分类:
其他好文 时间:
2018-12-16 13:29:00
阅读次数:
116
概述: jieba是优秀的中文分词第三方库,jieba分词依靠中文词库 https://pypi.org/project/jieba/ 安装:pip install jieba import jieba jieba分词的三种模式 精确模式:把文本精确的分开,不存在冗余单词 全模式:把文本中所有可能的 ...
分类:
其他好文 时间:
2018-12-14 01:00:20
阅读次数:
678
实操重写IK分词器源码,基于mysql热更新词库参考网址:https://blog.csdn.net/wuzhiwei549/article/details/80451302 问题一:按照这篇文章的介绍,遇到一个问题:No suitable driver found for jdbc:mysql,搞 ...
分类:
数据库 时间:
2018-12-12 20:32:02
阅读次数:
228