码迷,mamicode.com
首页 > 其他好文 > 详细

条件随机场(Conditional Random Fields)入门篇

时间:2015-10-27 17:38:35      阅读:1514      评论:0      收藏:0      [点我收藏+]

标签:

1.1 引言

关系数据有两个特征: 1 待建模实体概率不独立。2 待建模的实体往往有很多特征可以帮助分类。例如,分类网页时,网页的文字信息可以提供很多信息,但网页间的超链接也可以帮助分类。[Tasker et al., 2012]

图模型是一种利用实体间概率依赖性的自然形式,通常,图模型用来表示联合分布P(x,y), y 表示的是期望的预测,x则表示可见的待待建模实体,类似于mechine learing的 输入x(i)与类标记y,但是对非独立变量的联合分布建模会很困难,因为根据乘法公式P(x,y) = P(x)*P(y|x),对P(x)建模时,由于x并非独立,所以要考虑其中的概率依赖关系,而不能像NavieBayes那样认为实体x是独立的,这样会损失很多有益于分类的信息。

针对以上问题的解决办法是直接对P(x|y)建模,这对于分类来说已经足够了,这正是CRF所采用的方法。CRF就是一个可用图模型表示的条件分布P(x|y),这样就会避开对x的建模,例如,在NLP领域,有用的特征包括相邻的词,bi-grams(例如 : front word & word)前后缀,大小写,领域词,或来自词网的语义信息。最近CRFs在文本处理,生物学,计算机视觉上很火热。  

文章结构:

1. 介绍近期关于CRF的训练与使用,介绍CRF特例liner-chain CRF,并把这些模型与图模型关联起来

2. 通用的CRF的应用,比如信息抽取,这个模型会对非结构的文本建立起联系。通用CRF可以捕获到距离很远的实体的依赖关系,而不像liner-chain CRF 

3.

 

1.2 图模型

 

1.2.1 定义

对一个随机变量集合V=X ∪ Y,假设X是可观测的输入变量集合,Y是一系列我们要预测的输出。对一个随机变量取值序列V‘, 是由一系列随机变量的取值 v(vV)构成的,v 即可是离散也可连续,这里只讨论离散的情况。

关于符号表示:


 

随机变量X的可能取值记做x

对随机变量A ⊂ X 的可能取值记做xA

1{x=x‘} 表示当x=x‘ 成立时,取值为1,否则取值为0

一个图模型即对图分解后的概率分布族。图模型的主要思想是表达一些随机变量的分布,这些随机变量产生自仅仅依赖与少量变量的局部函数。给定集合A ⊂ V ,给定一个无向图模型,其分布可以写成:

技术分享

1.1中的F={φA}中的 φA = Vn->R+(函数集合F又称作局部函数,或兼容函数),偶然情况会使用随机场来描述无向图模型的分布,声明一下,本文中“模型”一词会经常用来概率分布族,而随机场则描述分布族中的一员。公式1.1中常量Z是一个正则化参数,计算如下:

技术分享

通常Z是很难计算的,但有许多方法可以近似计算。

对公式1.1,可以用因子图的方式表示。因子图即二部图G=(V,E,F),其中若变量v是函数φA的参数,变量节点vs∈V要与因子节点φA∈ F在图中是相连的。图1.1右边即为因子图的形式,图中圆形节点为变量节点,方形节点为因子节点

技术分享

本文中,会假设每个局部函数形式如下:

技术分享

θA为实值参数,{fAk}为特征函数集合,这种形式确保了参数θ修饰的关于V的分布族是指数分布族,本文中所讨论的模型大部分都属于指数分布族。

无向图模型,贝叶斯网就基于无向图模型G=(V,E),无向图模型可以用如下公式表示:

技术分享

∏(v)在图G中是v的父节点,如图1.1所示。

术语“生成模型”描述的是无向图中输出变量拓扑产生输入变量,这就意味这,没有x∈X,可以是输出变量y∈Y的父节点,实际上,生成模型描述的正是输出变量如何依概率产生于输入变量。

1.2.2 图模型的应用

这章会详细阐述一些在NLP领域的应用,还会涉及到HMM,因为它与 liner-chain CRF密切相关。

1.2.2.1 分类

首先,对与分类问题,给定输入{x} = (x1, x2, . . . , xk),求输出y的类别,简单的解决办法就是假设{x}是独立的,而且类标签是已知的,如 Navie Bayes分类器就是这么处理的:

技术分享

这个模型可以被表示中图1.1左边的形式

 

条件随机场(Conditional Random Fields)入门篇

标签:

原文地址:http://www.cnblogs.com/ooon/p/4867719.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!