@font-face { font-family: "Cambria Math"; }@font-face { font-family: "DengXian"; }@font-face { font-family: "@DengXian"; }p.MsoNormal, li.MsoNormal, div.MsoNormal { margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman"; }.MsoChpDefault { font-family: DengXian; }div.WordSection1 { }
总结:
建议再看此文之前先了解下马尔科夫随机场,博文链接:
条件随机场是马尔科夫随机场的一种特殊情况,举个例子:
P(Y|X1,X2,X3,Y2,Y3) = P(Y| X1,X2,X3,Y2),则说明Y与Y3无关。
CRF的定义:一系列的随机变量可以生成一个条件随机场
P(Yi|X1,……,Xn,Y1,…Yi-1,Yi+1,……,Yn) = P(Yi|N(Yi))
N(Yi) 表示Yi的邻居,此式子表示Yi只由Yi的邻居决定。
邻居Neighbors:
什么样的变量可以做邻居:互相可以影响的
我们可以把邻居映射到无向图中,则邻居与邻居之间可以相连,形成无向图
举个例子:若Y1,Y2,Y3,是邻居,Y4,Y5是邻居,则可以画出如下的图:
最大的Clique就是左边这个,边为3条。
矢量化的条件随机场Factorizable CRF:当所有概率全部大于0时,此CRF即可以被矢量化
在本章中,CRF是应用于NERC的,所以我们可以把X向量理解为corpus向量,Y向量理解为标签向量。是势函数,即关于向量x,y的势。Ci代表的是Clique i。如何计算势,我们后面再讲。
条件随机场链CRF Chain:在CRF中,若邻居图是一条链,则叫CRF链,所以此时,CRF clique图中只有两个成员,即Yi-1和Yi,也就是本身和其predecessor。
我们之前的概率函数为:
此时Ci = {Yi-1,Yi}
CRF有几种特殊情况:
1 - 每个成分的势都一样时,我们可得
所以此时可以把i放进括号里面,即要知道该成分在X向量中的位置,即对应语料库中哪一个词。
2 - 带features的CRF
我们在NERC章节学到statistical NERC方法中如何用函数表示features,即f(X,i,y) 。此时我们有一个features的向量,即F,并且也定义了每个feature的权重,即w,此时势函数的定义为:
所以我们可得