码迷,mamicode.com
首页 >  
搜索关键字:词性标注    ( 116个结果
NLP | 自然语言处理 - 标注问题与隐马尔科夫模型(Tagging Problems, and Hidden Markov Models)
在自然语言处理中有一个常见的任务,即标注。常见的有:1)词性标注(Part-Of-Speech Tagging),将句子中的每个词标注词性,例如名词、动词等;2)实体标注(Name Entity Tagging),将句子中的特殊词标注,例如地址、日期、人物姓名等。粗略看来,这并不是一个简单问题。首先每个词都可能有多个含义,不同情况表达不同含义;其次,一个词的含义或者词性也受到前后多个词的影响。 然后隐马尔科夫模型却从数学上给出了一个近乎完美的解决方案。...
分类:其他好文   时间:2014-07-02 10:45:21    阅读次数:283
基于隐马尔可夫模型的有监督词性标注
代码下载:基于隐马尔可夫模型的有监督词性标注 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。        词性标注本质上是...
分类:其他好文   时间:2014-06-24 20:05:51    阅读次数:233
用python做中文自然语言预处理
这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例:一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不...
分类:编程语言   时间:2014-06-03 06:45:21    阅读次数:385
自然语言理解——NLP中的形式语言自动机
1.形式语言:是用来精确地描述语言(包括人工语言和自然语言)及其结构的手段。形式语言学 也称代数语言学。 2.自动机:识别器是有穷地表示无穷语言的另一种方法。每一个语言的句子都能被一定的识别器所接受。 *有限状态转换机(FST) 除了前面提到的单词拼写检查、词法分析、词性标注...
分类:其他好文   时间:2014-05-31 15:18:10    阅读次数:631
python中判断语句用两个or连接的奇葩
首先来看问题,在做完词性标注后,我要将部分词性的词去掉,如代码中,列表cixing所示:if的判断语句不能只用 k in seg,因为,这种情况不能去除k==seg的情况。所以需要两个判断语句即:if k==seg or k in seg:好的,问题来了,请看测试结果import rea="hen/...
分类:编程语言   时间:2014-05-30 20:02:41    阅读次数:399
隐马尔科夫模型
HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包 括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行 模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音 输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...
分类:其他好文   时间:2014-05-30 05:24:57    阅读次数:212
116条   上一页 1 ... 10 11 12
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!