标签:记录 man str lan uac 会计 out word line
abstract
句子结构是文本语言质量的关键,我们记录了以下实验结果:句法短语统计和其他结构特征对文本方面的预测能力。手工评估的句子fluency流利度用于机器翻译评估和文本摘要质量的评估是黄金准则。我们发现和短语长度相关的结构特征是弱特征,但是与fluency强相关,基于整个结构特征的分类器可以在句子fluency成对比较和区分机器翻译和人类翻译上取得高准确率。我们也测试了这个假设即,学到的模型可以捕捉人类创作文本的普遍的fluency性质。实验结果不支持这种假设。同时结构特征和基于结构特征的模型被证明是对多文本总结的语言质量自动评估具有robust鲁棒性的。
2 Sentence Fluency and Machine Translation
实验用的数据是the Linguistic Data Consortium的Chinese to English translations,每个句子有四个人工标注3个机器标注,fluency等级是1-5 (5: flawless English; 4: good English; 3: non-native English; 2: disfluent English;1: incomprehensible).我们强调4个任务:
a、区分人工和机器翻译
b、区分流利和不流利的机器翻译
c、在相同输入部分的两个翻译之间,区分在fluency上更好的翻译,这项任务和input-level的自动fluency评估有关。
d、使用在MT评估中的数据训练后的模型来预测人为写的华尔街日报文本的潜在的流利性问题
需要特别注意的是我们的研究目的不是评估机器翻译而是更普遍意义上的,兴趣点是找到句子流利度的predictors预测因子。由于没有对人写的文本的流利度评估的语料,所以使用之前机器翻译背景下对流利度研究的评估结果对我们来说是有利的。然而,我们的发现也对机器翻译句子级别的评估有潜在的意义。
2.1 features
我们感知到的句子流利度受很多因素影响。
a、句子契合上下文的环境的方式是一个明显的因素
b、vocabulary词汇的使用:不熟悉的难词会给读者带来问题,也会降低文本的可读性
但是这些对话和词汇级别的特征度量了粒度层面上的属性,这不同于句子等级。
结构句子等级特征没有被作为单独的一类研究过,这也就是为什么我们将我们的研究限制在语义特征,在机器翻译数据的实验中最初没有讨论对话和语言模型特征。
在我们工作中,没有关注句子中的语义结构例如使用的语义规则,我们使用句子长度和修饰语类型这些表面的统计特征。我们用Charniak‘s parser来parse句子,从而计算这些特征。
sentence length是句子中words的数量。像BLEU这样的评估准则偏爱短句子翻译。一般情况下,我们会认为句子越短,越容易阅读,因此也觉得越fluent。为了直接测试这个对句子间接度偏好的假设我们加入了这个特征。
parse tree depth和subordinating conjunctions (SBAR count)从属连词的数目也认为和noun phrases名词短语、verb phrases和prepositional phrases一样可以来度量句子复杂度。一般来说,句子越长,句法上更复杂,但是当句子相同长度时,parse tree depth就可以表示复杂度,因为复杂度的增加会减慢处理速度,会觉得句子不那么流利了。
Number of fragment tags in the sentence parse句子parse后tags的数目,在headlines中fragment片段出现并不一定会导致fluency问题,例如“Cheney willing to hold bilateral talks if Arafat observes U.S. cease-fire arrangement”,但是在机器翻译中,fragments的出现就预示着一个更严重的问题。
Phrase type proportion短语类型比例会计算prepositional phrases (PP), nounphrases (NP) and verb phrases (VP),计算方式是每个短语类型的单词长度(lenght~猜测是字符长度)/句子的长度,embedded phrases也会包含在计算当中:例如一个名词短语(NP1 ... (NP2))中, length(NP1) + length(NP2) 也会算在短语长度中。
Average phrase length平均短语长度是组成该类型短语的单词的数目/给定类型的短语的数目 ,会计算r PP,NP, VP, ADJP, ADVP。计算了两个版本的特征:
a、FC1 计算中包含了embedded短语
b、FC2只计算了给定类型的最大的短语
一个句子中任何短语类型的平均长度也会被计算
Normalized average phrase length (FC3) 会计算PP, NP and VP,等于给定类型average phrase length/句子长度 ,这只会计算最大的短语。
Phrase type rate会计算 PPs, VPs and NPs,等于句子中给定类型的短语的数量/句子长度,例如“The boy caught a huge fish this morning”这个句子中NP短语数目的rate=3/8,VP短语rate=1/8。
Phrase length (FC4) ,在PP,NP,VP中words的数目(没有任何normalization),只计算最大的短语。Normalized phrase length是句子长度/the average phrase length (for VPs, NPs, PPs),这个有两种计算方式
a、FC5-有相同类型的embedded短语的最长短语,只计算一次
b、FC6-每个短语不包括embedding。
Length of NPs/PPs (VP中),在一个动词短语中组成NP或者PP的平均单词数/动词短语的长度,相似的也会计算the length of PP in NP。
Head noun modifiers. noun phrases名词短语很复杂,可以用各种方式修饰head noun-pre-modifiers, prepositional phrase modifiers,apposition(前置定语,介词短语修饰,同位语)。这些modifiers的单词长度会被计算。每个特征有一个变量,等于modifier的字长/句子长度,最后,在所有的modification中的两个特征都会被计算:一个是所有modifier的长度和,一个是normalized归一化的modifier长度
2.2 feature analysis
这一部分我们会分析上面这些特征和fluency的关系。分析的目的不是特征选择-所有的特征都会在后面的实验中用到,而是为了更好的理解哪些因素能预测good fluency。
数据集中的fluency得分分布不是很均衡,主要评分集中在fluency3.
表二列举了哪些特征值和fluency评定之间的Pearson’s相关系数更高。
a、MT评估给出的fluency和adequacy是高度相关的。这惊人的高,考虑到分别fluency和adequacy评估被引出是由于这些在翻译当中相互独立的。fluency是直接由assessors评分者判断的,adequacy用来在和人类标准的对比下评估句子的内容。但是,这两个方面的评估常常是一样的-句子的可读性/fluency对理解句子是重要的。只有在assessors已经理解了句子可以判断它是如何和人类模型做比较后,就会总结道:使得系统产生流利的文本的fluency/可读性模型是发展成功的机器翻译系统的关键。
b、句子长度。更短的句子更容易,也比更长的句子感觉上更fluent。偏爱简短在写作和语音对话的计算语言学工作中都是有效的。注意,即使相关性很弱。在sub-sentential子句(短语)中也会考虑句子长度。
c、Noun phrase length名词短语长度和句子长度有一样的相关性,名词短语越长,句子越不fluent。长名字短语需要花更久区解释,降低了句子的fluency/可读性。
– [The dog] jumped over the fence and fetched the ball.
– [The big dog in the corner] fetched the ball.
上面这个例子表明,长名词短语读起来更难,特别实在主语的位置。相近的动词短语长度意味着潜在的fluency问题,这可以在我们语料的例子中看出,也就是假设我们人工的翻译都是认为理想的,即评分为5,但是这在assessors看来有时会被评为低分。
d、
– Most of the US allies in Europe publicly [object to invading Iraq]V P .
– But this [is dealing against some recent remarks of Japanese financial minister,
Masajuro Shiokawa]V P .
VP距离(分开的两个动词短语的平均词数)适合句子fluency负相关的。在机器翻译中,明显的问题就是在长文本中可能没有包含一个动词,但是即使在人类写的文本总,更多的动词的出现会影响fluency,看下面两个句子:
– In his state of the Union address, Putin also talked about the national development plan for this fiscal year and the domestic and foreign policies.
– Inside the courtyard of the television station, a reception team of 25 people was formed to attend to those who came to make donations in person.
e、非归一化的动词短语长度是和fluency强相关的。在计算相关性时发现,不去归一化短语句子长度特征是最好的。
上面没有特征是和noun modification--apposition length, number of appositions, number of pre-modifiers同位语长度、同位语数量、前置修饰语的数量有关系的,但是noun modification在0.95的置信度下是和fluency非常相关的。
标签:记录 man str lan uac 会计 out word line
原文地址:https://www.cnblogs.com/rosyYY/p/9960028.html