一、传统文本分类方法 文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆盖的范围和准 ...
分类:
其他好文 时间:
2017-10-27 15:55:17
阅读次数:
185
最近在学习算法,之前一直都没有系统的学习。在学习的过程中,突然看到了伪代码,我是两眼一抹黑,不知所云? 立马去百度了下,查找相关的资料,如下: 伪代码(Pseudocode)是一种算法描述语言。使用为代码的目的是为了使被描述的算法可以容易地以任何一种编程语言(Pascal, C, Java, etc ...
分类:
其他好文 时间:
2017-10-26 23:09:22
阅读次数:
119
一、卷积神经网络的基本概念 受Hubel和Wiesel对猫视觉皮层电生理研究启发,有人提出卷积神经网络(CNN),Yann Lecun 最早将CNN用于手写数字识别并一直保持了其在该问题的霸主地位。近年来卷积神经网络在多个方向持续发力,在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理甚至脑 ...
分类:
其他好文 时间:
2017-10-25 21:19:41
阅读次数:
266
今天阅读了第二部分的第8章后部分,第9章和第10章:聆听客户的意见,编写需求文档,需求的图形化分析。 需求分析的定位是做什么而不是怎么做,实例图是具有功能性质的,不宜太多或者太细。 在第9章学习中, 需求文档应该是由形式化,结构化,陈诉一致的样式,确定的态度,定量化,言简意赅的自然语言(用户术语)编 ...
分类:
其他好文 时间:
2017-10-25 18:11:02
阅读次数:
210
跟着Bag of Words Meets Bags of Popcorn的初学者实例,敲了一遍代码。主要用到的是CountVectorizer,生成每个评论的词频向量,然后利用随机森林建立模型,对新的评论进行预测。提交之后,分数大概为0.84。 ...
分类:
编程语言 时间:
2017-10-24 11:34:57
阅读次数:
230
作者 | 张皓 引言 RNN是深度学习中用于处理时序数据的关键技术, 目前已在自然语言处理, 语音识别, 视频识别等领域取得重要突破, 然而梯度消失现象制约着RNN的实际应用。LSTM和GRU是两种目前广为使用的RNN变体,它们通过门控机制很大程度上缓解了RNN的梯度消失问题,但是它们的内部结构看上 ...
分类:
其他好文 时间:
2017-10-22 22:08:19
阅读次数:
200
基于神经网络的实体识别和关系抽取联合学习 联合学习(Joint Learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint Model)来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性 ...
分类:
其他好文 时间:
2017-10-22 21:21:18
阅读次数:
569
近年来医疗数据挖掘发展迅速, 然而目前医 疗数据结构化处于起步阶段, 更多的医疗数据仍然 以自然语言文本形式出现, 这些医学文本资料中的 知识是不同地域、 不同时代人们智慧的结晶, 展现 的是大量、 未整理的文献资料以及诊疗记录, 而这一点在中医学中尤为突出。自然人的学习能力有限, 因此学者们尝试通 ...
分类:
编程语言 时间:
2017-10-18 02:13:11
阅读次数:
3136
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 语料预处理封装类: 执行结果: ...
分类:
编程语言 时间:
2017-10-16 13:56:50
阅读次数:
342
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 代码封装类: 运行效果: ...
分类:
编程语言 时间:
2017-10-16 13:34:33
阅读次数:
272