最小错误率训练(mert)基本原理学习

时间：2014-05-09 01:53:18 阅读：459 评论：0 收藏：0 [点我收藏+]

标签：style blog ext http c 2014

在看本博文之前，最好阅读如下三篇文章：

1. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation

2. Minimum Error Rate Training in Statistical Machine Translation

3. Z-MERT: A Fully Configurable Open Source Tool for Minimum Error Rate Training of Machine Translation Systems

mert主要运用于机器翻译的参数调节过程中。由于目前主流的机器翻译模型多为log-linear模型，在log-linear模型中，有很多参数weights，对于每一个特征，都有与之对应的weight。如何调节这些weights，才能获取更好的翻译结果呢？Och提出了mert——最小错误率训练的方法用于调节参数。

其实在Och之前就有参数调节的方法，他们优化的目标多为翻译结果的最大翻译概率，采用的方法多为梯度下降、Powell搜索等，由于目标函数的特性，这些方法都能够搜索到最优的结果。

但是这些方法有一个弱点，优化目标和机器翻译评测的目标不一致，出现了分歧。虽然有的时候能够获取较好的优化目标，但是不一定能取得较好的翻译评测的目标。但通常人们多以翻译评测的目标作为翻译质量的评价。因此，Och直接采用了翻译评价指标作为优化目标函数。

接下来，我们来看看Och的mert基本原理！

假设我们优化如下权重向量，Λ = {λ1, ..., λd, ..., λM}的dth维。此时，我们固定其他维度，只有dth维进行变化。对于每一个外文句子f，都有一个翻译候选集合{e1, ..., eK}，

因此，每一个候选的得分如下：

bubuko.com,布布扣

由于此时，我们固定dth维，因此，该公式变换为如下形式：

bubuko.com,布布扣

可以看出，上述公式只有λd是变量，其他都是常量，我们进一步变化该公式：

bubuko.com,布布扣

此时对于一个翻译候选，我们抽象成了一条直线。该直线的y为score得分，x轴为λd.对于每一个外文句子，我们即可构建如下图：

bubuko.com,布布扣

图中加粗的为得分上限。根据不同的λd，我们可以得到不同的得分。可以看出，在两条之间的交点处会发生得分的变化，得分变化，翻译候选随之而变，翻译的评价指标也会跟随变化。因此，我们只考虑所有直线的交点即可。

bubuko.com,布布扣

对于两个外文句子而言，我们可以得到如上图：

bubuko.com,布布扣

首先，我们需要计算所有的直线交点，求完之后。然后根据这些交点进行划分x轴，可以得到很多区间。在每一个区间，我们计算出每一个外文句子对应的最优直线（最优得分）。然后将一个区间内的所有外文句子的最优直线进行合并，即可得到翻译结果，此时可以根据不同的翻译评测目标进行评价该结果译文。然后遍历所有的区间，即可得到在哪一个区间内会取得较好的翻译评测目标。将该区间的λd作为Λ的dth维度的值。

上述讲解了如何优化某一维度（固定其他维度）的方法原理！

接下来我们讲述一下mert优化算法的整体框架！

bubuko.com,布布扣