相似度增强的译文质量评估方法

时间：2022-12-07 22:30:02　来源：柠檬阅读网本文已影响人

陈世男，贡正仙，李军辉，周国栋

(苏州大学计算机科学与技术学院，江苏苏州 215006)

机器翻译是利用计算机将一种自然语言转换成另一种自然语言的过程[1-3]，而机器翻译的发展离不开有效的译文质量评价方法.最广泛使用的评测指标是双语互译评估(BLEU)[4]值，然而BLEU值离不开人工标注的参考译文，这需要耗费大量的人力和时间来生成.机器翻译的质量评估可以在无人工标注参考译文的情况下对机器输出译文的质量进行评分[5-8].相较于依赖人工参考译文的自动评价方法，这种质量评估方法可以节约大量的人力时间，且使用限制更少，更加方便快捷.

传统质量评估方法使用耗时且昂贵的人工特征来表示源端句子和机器译文[9-10].随着深度学习的发展，基于深度神经网络的方法被应用于译文质量评估中.Kreutzer等[11]提出从头开始的质量评估模型QUETCH(quality estimation from scratch)，即不使用任何先验语言知识，仅通过从质量评估数据中获取的语言特征训练模型.该方法还使用了窗口设计，收集双语上下文窗口中的单词，并将它们的分布式表示进行拼接，作为窗口中间单词的词嵌入分布.值得注意的是，为了获取双语的上下文窗口表示，原文和译文的对齐关系是必不可少的，这就使得该模型并非完全由神经网络构成.

不同于上述方法，Kim等[12-13]提出了一种完全由神经网络构成的“预测器-评估器”模型，它由词预测模型和质量评估模型堆叠而成.这种方法通过将预测器中有用的语言学信息迁移到评估器中，克服了质量评估任务中缺少训练数据的难题.实验证明这是一种有效的端到端的神经模型，并在WMT17质量评估共享任务中取得了最好的结果.然而，预测器-评估器方法也存在一定的局限性:一方面，词预测器的训练离不开大量平行语料和密集计算资源的支持；
另一方面，Cui等[14]指出预测器-评估器的两阶段之间存在数据差异的问题.

随着多语言预训练模型在很多任务中获得成功应用，将其引入到机器翻译的质量评估任务[15-19]中成了一个自然的想法，这种方式不仅消除了对平行语料的依赖，还减轻了复杂神经网络的负担，从而减少了对计算资源的需求.Ranasinghe等[16]的工作是其中的代表，他们提出了基于跨语言预训练模型的质量评估框架TransQuest，并通过实验验证了在质量评估任务中，单塔结构的MTransQuest比双塔结构的STransQuest具有更好的效果.

与预测器-评估器结构类似，Ranasinghe等[16]提出的预训练模型-评估器结构同样存在两阶段间数据差异的问题.具体地说，多语言预训练模型是在多语言的单语语料上构建的，因此在双语语义对应方面的能力还有待提升[20-21]；
此外，在机器翻译的质量评估任务中，源端是正确的待翻译文本，但目标端则是包含有错误信息的机器译文，而用于训练预训练模型的都是完全正确的单语语料，所以机器翻译的质量评估任务中输入的两端文本并不能通过跨语言预训练模型完全对应.

陆金梁等[20]针对上述问题提出联合编码的预训练，即使用平行语料对预训练模型进行二次训练.Kim等[21]提出机器翻译质量评估的BERT(bidirectional encoder representation from transformers)预训练模型，不同于BERT模型专注于对“单语”的理解，机器翻译质量评估的BERT专注于“双语”理解，即用平行语料进行预训练，根据单词的上下文信息学习单词的双语语境.上述研究为了能在机器翻译的质量评估任务中更有效地使用预训练模型，均采用修改底层预训练模型的思路，即用平行语料来微调跨语言预训练模型.

与上述方法不同，本文根据机器翻译质量评估任务的特点，提出了采用原文与译文的相似度增强的拼接机制来提高机器翻译的质量评估系统的性能，即保持底层跨语言预训练模型不变，在评估器模块通过计算和控制更细粒度的子词相似度来加强源端和目标端语义对应关系，同时也能缓解预训练与微调阶段的数据差异问题.为了验证该方法的有效性，在WMT19英-德和英-俄数据集上进行验证实验.

1.1 任务概述

本文专注于译文质量评估的句子级任务，该任务根据给定的源端文本S和机器翻译的输出译文T,预测译文T的人工翻译错误率(human translation error rate，RHter[22]).RHter是用于衡量编辑距离，反映句子错误率的指标,其计算式为

(1)

其中，NIns、NDel、NRep分别表示将译文T修改成可供出版的标准译文P所需要的插入、删除和替换的编辑次数，NRW则表示标准译文P所包含的单词数.RHter是一个0～1范围内的实数，分数越高说明需要编辑的次数越多，译文质量越低；
相反，分数越低说明需要编辑的次数越少，译文质量越高.

1.2 质量评估基线模型

受Ranasinghe等[16]提出的MTransQuest工作的启发，本文采用单塔结构的预训练模型-评估器架构.将子词长度为m的原文X={~~,x1,…,xm,~~}与子词长度为n的译文Y={,y1,…,yn,}拼接得到T={~~,x1,…,xm,~~,,y1,…,yn,},使用基于Transformer的XLM-R(XLM-RoBERTa)[23]预训练模型将T抽象表示为融合上下文信息的隐层状态.XLM-R为Facebook AI团队提出的一种跨语言预训练模型，该模型使用2.5 TB的Common Crawl数据库的过滤数据，在100种语言上训练基于Transformer的掩码语言模型(masked language model，MLM)，在跨语言分类、序列标注、问答任务上都取得了SOTA(state-of-the-art)的效果.选取XLM-R最后一层的输出hlast作为质量评估特征向量，如式(2)所示，使得原文与译文信息得以表示在同一特征空间中：

hlast=XLMR(T),

(2)

其中，hlast∈Rb×(m+n)×d,b表示批次大小(batch size)，d表示隐层维度.将hlast经过池化处理(此处为整体池化)后得到句子级特征向量fs，fs∈Rb×d,最后用回归器预测得到该批词语料译文质量评估值，如式(3)所示：

RPred=σ(fs·W0+b0)·W1+b1,

(3)

其中，W0∈Rd×d,W1∈Rd×1,b0∈Rb×d,b1∈Rb×1,它们都是模型可学习的参数，σ则表示sigmoid函数.

以上为质量评估基线模型的结构，为有效对原文和译文的语义进行联合控制，本文建议在基线模型里引入如图1所示的特殊语义关联处理层.在该层中将使用相似度增强的拼接机制来加强原文与译文的语义关联.

2.1 简单拼接机制

Ranasinghe等[16]提出的MTransQuest架构中采用了3种不同的池化方式：

1) Cls池化：使用输入信息T的第一个子词~~的隐层表示作为整个句子的特征向量；~~

~~2) Mean池化：使用输入信息T中所有子词的隐层表示的均值作为整个句子的特征向量；~~

~~3) Max池化：使用输入信息T中所有子词的隐层表示的最大值作为整个句子的特征向量.~~

~~Ranasinghe等[16]的实验结果表明Cls池化方法的效果最佳.~~

~~图1 相似度增强的拼接机制示意图Fig.1 Schematic diagram of the joint mechanism of similarity enhancement~~

~~fs=Concat(fsrc,ftgt),~~

~~(4)~~

2.2 相似度增强的拼接机制

在简单的拼接机制中，虽然fsrc与ftgt是完整的句子表示且保持了整体语义的对应关系，但fsrc是正确的源端文本向量表示，ftgt却包含有错误程度不同的译文向量表示.此外，池化的方法仅仅考虑了句子的整体语义，却无法考虑到更细粒度的词级信息.受到Zhou等[24]工作的启发，本文中尝试融合子词级的语义相似度，在简单拼接方式的基础上融入体现子词相似度的评分S(图1)，使得源端和译文的语义关联能分别兼顾整体和局部的对应语义.

受自动评价指标BERTscore[25]的启发，本文中将基于XLM-R的相似度分数S以向量的形式融入到原文与译文的特征向量中.BERTscore是一种基于预训练的BERT上下文嵌入的语言生成评价指标，它将两个句子的相似度约等于它们的子词分布式表示的余弦相似度的总和.这种相似度指标能够解决基于n-gram指标的两个常见的缺陷：第一，语义正确的短语往往因为与参考句的表面形式不同导致性能被低估，例如，在给定参考句“people like foreign cars”的情况下，对于两个候选翻译“people like visiting places abroad”和“consumers prefer imported cars”,BLEU会错误的给前一个候选翻译更高的评分；
第二，n-gram模型无法捕获远程依赖关系并对关键语句的排序更改进行惩罚，例如，参考译文是“A because B”,而给定的候选译文为“B because A”,BLEU只会对因果从句的互换进行轻度惩罚，尤其当A和B是长短语的时候.而使用上下文嵌入不仅能防止简单字符串匹配带来的语义错误问题，而且能够有效地捕获远距离的依赖关系.

~~(5)~~

~~在计算获得相似度S后，将其平铺成与fs相同维度后采用简单的静态权重加权的方式进行融合：~~

~~H=(1-λ)·S+λ·fs,~~

~~(6)~~

~~其中，fs∈Rb×2d,λ是可调参数，它对实验性能的影响将在后面的实验中进行讨论.~~

3.1 实验设置

为验证上述方法的性能，本文在WMT19句子级别译文质量评估任务上进行实验.表1给出了英-德(EN-DE)以及英-俄(EN-RU)两个方向上译文质量评估语料的训练集、开发集和测试集语料规模.

~~表1 实验语料规模统计~~

预训练模型选用Transformers库中的xlm-roberta-large(https:∥huggingface.co/xlm-roberta-large)和xlm-roberta-base(https:∥huggingface.co/xlm-roberta-base)模型.其中，xlm-roberta-base的编码器层数为12层，隐藏层维度为768维，多头注意力机制设置12个头；
xlm-roberta-large的编码器层数则为24层，隐藏层维度为1 024维，多头注意力机制设置16个头.由于显存有限，设置原文与译文的最大序列长度均为40，总序列长度不超过80.dropout设置为0.1，使用的优化器为AdamW，β1=0.9，β2=0.999，ε=1×10-8,批次大小为8，训练6个epoch，学习率设置为5×10-6,早停数为10.

为了评价译文质量估计的性能，采用的评估指标为皮尔森相关系数(Pearson)和斯皮尔曼相关系数(Spearman)，其中皮尔森相关系数用于反映预测值与真实值的线性相关性，斯皮尔曼相关系数则被用于反映预测结果排名与真实值排名的线性相关性.皮尔森相关系数和斯皮尔曼相关系数的值越接近1，表示相关性越好，预测准确性越高.本文的实验结果主要参考皮尔森相关系数.

3.2 池化方式对比

为了验证不同池化方式对性能的影响，在xlm-roberta-base模型上对两个数据集上进行了如下实验:1) 本文对MTransQuest采用的整体池化方式(M-*)中Cls池化效果最好的结论进行了验证；
2) 如2.1所述，本文没有采用MTransQuest的整体池化方法(M-*)，而是采用了分别池化再拼接的方法(ST-*)，表2给出了两种池化方法的性能对比(Mean，Sum，Max分别表示均值、求和与最大值运算).

如表2所示，整体池化方式中，Cls池化的性能最优；
为使用相似度S而特别采用的拼接池化方式ST-*受到的原文与译文端独立进行的池化方式的影响较大，在EN-DE和EN-RU数据集上，采用均值的拼接池化方法(ST-Mean)均优于整体池化方法中最好的Cls池化方法(M-Cls).为了进一步验证第2节中涉及的相似度增强方法，下面实验中均采用ST-Mean池化方法.

~~表2 不同池化方式的对比结果~~

3.3 语义关联层的方法对比

~~为验证第2节中探讨的语义关联层方法，在WMT19句子级译文质量评估任务上进行相关实验，并以皮尔森相关系数为主要参考指标，实验结果如表3所示.~~

~~表3 语义关联层方法的性能~~

EN-DE方向上，在xlm-roberta-base模型设置下，均值池化的拼接机制Base-ST比基线方法Base-Cls提升了1.05个百分点，相似度增强的拼接机制Base-Sim则在简单的拼接机制Base-ST的基础上又提升了1.05个百分点，总共提升了2.10个百分点；
在xlm-robeta-large模型设置下，拼接机制Large-ST相较于基线系统Large-Cls下降了2.36个百分点，这也说明了拼接机制的结果受池化方式的影响较大，然而在拼接机制Large-ST的基础上融入相似度后的模型Large-Sim相较于基线模型反而提升了1.27个百分点，说明了虽然拼接机制的性能不够稳定，但相似度增强的拼接机制性能稳定且明显优于基线系统.

EN-RU方向上，在xlm-roberta-base模型设置下，均值池化的拼接机制Base-ST比基线方法Base-Cls提升了0.70个百分点，相似度增强的拼接机制Base-Sim则在简单的拼接机制Base-ST的基础上又提升了1.50个百分点，总共提升了2.20个百分点；
在xlm-robeta-large模型设置下，拼接机制Large-ST相较于基线系统Large-Cls提升了1.99个百分点，相似度增强的拼接机制Large-Sim则在简单的拼接机制Large-ST的基础上又提升了0.59个百分点，总共提升2.58个百分点.

综上所述，相似度增强的拼接机制均能在基线系统的基础上提升2个百分点左右，且集成模型的性能在单一模型的基础上又有一定的提升，充分说明了该方法的有效性.

3.4 与官方结果对比

~~这一节将WMT19参赛团队实验性能与本文的方法进行对比，对比结果如表4所示.~~

~~表4 与WMT19官方汇报结果的性能对比~~

从对比实验中可以看出，本文单一模型Large-Sim的性能明显优于当年最优的单一模型CMULTIMLT(EN-DE)/ETRI(EN-RU)，且集成模型的性能优于当年最优模型UNBABEL，充分证明了本文方法的有效性.

4.1 相似度增强的拼接机制的案例分析

~~本文对比了如下两个案例的RHter、S、基线模型Large-Cls和相似度增强的拼接机制模型Large-Sim的质量评估预测结果，如表5所示.~~

~~表5 案例结果分析~~

~~案例1：~~

~~原文 lower the fill opacity .~~

~~译文 reduzieren Sie die Deckkraft der Fläche .~~

~~后期编辑文本 reduzieren Sie die Deckkraft der Füllung .~~

~~案例2：~~

~~原文 if you change the handleLeftMargin and handleRightMargin to -2 and handleY to -11,the handle can range from 98 to 202 horizontally and stay at 89 vertically .~~

~~译文 wenn Sie für " handleX " und " handleY " den Wert -2 und handleY in -11 ändern,kann der Griff von 98 bis 202 liegen und horizontal und vertikal bleiben .~~

后期编辑文本 wenn Sie den Wert für handleLeftMargin and handleRightMargin auf -2 und den für handleY auf -11 setzen,kann der Griff horizontal im Bereich von 98 bis 202 liegen und vertikal bei 89 bleiben .

对于案例1，对比机器翻译译文与后期编辑文本，可以发现两者在形式和语义上均接近，所以对应的人工编辑距离分值RHter的值也越低.通过计算，该译文的S相似度分数为0.976，该相似度分数在1 023 条测试语料中排名38，这也表明原文与译文的语义相似度较高.对比基线模型Large-Cls和相似度增强的拼接机制模型Large-Sim的预测结果，可以发现后者预测的值与RHter标签值更为接近，所以这也表明模型向着译文质量较高的正确方向上进行了纠正.

对于案例2，对比机器翻译译文和后期编辑文本，可以发现译文表述不完整，且与原文语义存在不一致的部分，所以对应的RHter值相对较高.通过计算，该译文的S相似度分数为0.946，该分值在1 023条测试语料中排名814，表明原文与译文的语义相似度低.再对比基线模型Large-Cls和相似度增强的拼接机制模型Large-Sim的预测结果，可再次发现后者预测的值与RHter标签值更为接近，因此也表明本文建议的模型能在译文质量较低的正确方向上进行纠正.

~~综上所述，在基线模型的基础上，在句子级特征向量上加入相似度增强的方法能有效指导模型向着正确的方向优化，从而提升模型的性能.~~

4.2 λ对性能的影响

~~为验证2.1节中λ对性能的影响，对比了λ取0.5～0.9的质量评估性能，结果如图2所示.~~

~~图2 相似度增强的拼接机制中λ对性能的影响Fig.2 Impact of λ on performance in similarity enhanced concatenation mechanisms~~

从折线图中可以看出，当λ≥0.6时，性能稳定优于基线系统，且当λ=0.6时，性能最优；
而当λ<0.6时，性能波动较大，这主要是由于质量评估特征向量本身具备一定的语义信息，所占比重不能太低，而相似度评分虽然包含有语义对应关系，但本文中是将数值平铺，加到每一维度的特征空间中，且相似度评分的分值在0.92～0.98范围内，不具有明显的区分性，若相似度分数占比太高，不同数据的特征向量将趋于一致.因此，偏高的λ值更具有稳定性.

目前质量评估任务可用的训练语料少之又少，因此，预训练模型因其不仅能获取丰富的先验知识，还可以节约大量的计算资源而成为质量评估任务的有效方法.本文使用的XLM-R跨语言预训练模型能有效处理多语言任务，实验结果表明，只需在预训练模型的基础上加入少量下游模型参数，就可以明显超过之前最好模型的性能.

此外，虽然XLM-R将源端和译文信息表示在了同一特征空间中，但由于目前大部分的跨语言预训练模型都是通过多语言的单语语料库训练获得，因此在双语对齐类任务中并不能完全胜任；
此外，机器翻译质量评估任务中,源端是正确的文本，译文却包含错误的输入，对于这种情况，如何更有效的进行双语语义的有效关联是值得研究的重点.本文在编码层上增加了特殊语义关联层，通过同时考虑句子的隐层表示和子词粒度的相似度，提升了机器翻译质量评估系统的性能.

~~未来工作中，将探讨原文和译文之间更细粒度的相关性，研究token级的相似度、对齐关系等对词级质量评估的影响.~~

猜你喜欢池化语料语义基于高斯函数的池化算法计算机应用(2022年9期)2022-09-25真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31卷积神经网络中的自适应加权池化软件导刊(2022年3期)2022-03-25海量标注语料库智能构建系统的设计与实现现代计算机(2021年33期)2022-01-21浅谈视频语料在对外汉语教学中的运用长江丛刊(2019年25期)2019-11-15可比语料库构建与可比度计算研究综述电脑知识与技术(2019年23期)2019-11-03用于手写汉字识别的文本分割方法智能计算机与应用(2018年2期)2018-05-23“吃+NP”的语义生成机制研究长江学术(2016年4期)2016-03-11汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27英语教学中真实语料的运用教学与管理(理论版)(2009年9期)2009-11-04
相关热词搜索：译文评估增强