众所周知,通过Bilstm已经可以实现分词或命名实体标注了,同样地单独的CRF也可以很好的实现。既然LSTM都已经可以预测了,为啥要搞一个LSTM+CRF的hybrid model? 因为单独LSTM预测出来的标注可能会出现(I-Organization->I-Person,B-Organizati... ...
分类:
其他好文 时间:
2018-03-26 16:50:37
阅读次数:
816
前言 特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。 特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简 ...
分类:
其他好文 时间:
2018-03-25 16:20:33
阅读次数:
1402
实现思路很简单: 基于「短语匹配」并设置最小匹配权重值 哪来的短语,利用 IK 分词器分词 基于 Fiter 实现筛选 基于 Pageable 实现分页排序 ...
分类:
编程语言 时间:
2018-03-22 19:33:29
阅读次数:
291
ChineseUtil 下载地址:https://github.com/Yurunsoft/ChineseUtil PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转。 PHP Chinese Tool class, support Chinese pinyin, pinyin particip ...
分类:
Web程序 时间:
2018-03-22 14:09:48
阅读次数:
279
mysql5.6 innlDB 在CHAR、VARCHAR、TEXT类型的列上可以定义全文索引,但因为无法中文分词所以对中文的支持很差,但从MySQL5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。 在没法升级5.7的情况下,5.6有变 ...
分类:
数据库 时间:
2018-03-20 12:46:48
阅读次数:
295
elasticsearch概念 1. 集群:一个或者多个节点组织在一起 2. 节点:一个节点是集群中的一个服务器,有一个名字来标识,默认是一个随机的漫威角色的名字 3. 分片:将索引划分为多份的能力,允许水平分割和扩展容量,多个分片响应请求,提高性能和吞吐量 4. 副本:创建分片的一份或者多分的能力 ...
分类:
其他好文 时间:
2018-03-14 23:02:53
阅读次数:
211
始终觉得官方文档是最好的学习途径。嗯,我只是一个大自然的搬运工。 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使 ...
分类:
其他好文 时间:
2018-03-14 18:07:36
阅读次数:
193
一、WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理。很明显这个实用英文,单词之间用空格。 二、SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符。很明显不适用于中文环境。 三、StopAnalyzer 停 ...
分类:
Web程序 时间:
2018-03-11 02:43:42
阅读次数:
251
1、简介 维特比算法是一个通用的求序列最短路径的动态规划算法,也可以用于很多其他问题,比如:文本挖掘、分词原理。既然是动态规划算法,那么就需要找到合适的局部状态,以及局部状态的递推公式。在HMM中,维特比算法定义了两个局部状态用于递推。 第一个局部状态是在时刻i隐藏状态为i所有可能的状态转移路径i1 ...
分类:
编程语言 时间:
2018-03-11 02:39:25
阅读次数:
1848