NLP概述

时间：2017-01-03 07:50:11 阅读：202 评论：0 收藏：0 [点我收藏+]

1，词法分析

待续

2，文本分类

文本表示：

重点是贝叶斯模型：二项表示法和多项表示法。（向量维度为词库大小，一个是01，一个是频次）。模型重点在于化后验为先验。

还有其他模型：机器学习模型，分布式模型等等。

特征选择：重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多，在其他文本中出现的次数较少，那么这个词的区分度就越高。

模型检验：accuracy = (TP +TN)/TP+FP+TN+FN precision = TP / (TP+FP) recall = TP/(TP+FN) F=2PR/(P+R)

3，词性标注（句法分析预处理）

给每个词标上它的语法属性。

难点：兼类词的存在。如果没有兼类词，我们查表即可。

形式化：分类问题。

假设：有限视野，时间独立，输出独立。

重点：HMM模型。viterbi算法(动态规划)。复杂度从（$N^T$降到$N^2T$）

welch-Baum算法。

4，语法分析

CFG（上下文无关文法）: (T,N,S,R)。T：终结符号。N:非终结符号。S:开始符号。R：语法规则。

自顶向下：目标驱动。自底向上：数据驱动。转换消除法。（shift-Reduce parsing）

传统的CFG语法解析问题：语法太紧，则应用广度不够，太松，则解析精度不够。

解决方法：给规则引入概率，结果去概率最大的解析结果。

PCFG：（T,N,S,R,P）P(R)，每条规则概率。

P(W1n) = 所有解析树的概率和。P(t1)= 该解析树所有分支概率乘积。解析结果去概率最大的树。

解析结果往往有指数级别个。常用Inside Probability或Outside Probability计算。

viterbi取最高的inside probability结果。

概率从何而来？有树库：从树库提取。没有：EM估计。

原文地址：http://www.cnblogs.com/zqiguoshang/p/6243526.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行