正文内容 评论(0)
近期,国外一份调查报告误将392万和83万的采购费用翻译为39.2亿和830万,闹出国际笑话。有分析认为,此乌龙事件是国外机器翻译软件造成的。
![[MD:Title]](http://img1.mydrivers.com/img/20210916/d1a84f14-6e76-4091-8154-51ff2033c5e4.png)
让很多人意想不到的是,看似简单的数字,在机器翻译中向来是一大痛点。就以「392.687694万元(人民币)」为例,我们测试不同翻译软件的翻译结果。
数字翻译「中译英」测试
首先测试「中译英」,国内外9款主流翻译软件中,只有火山翻译和腾讯翻译君准确地翻译出了392万。其余7款产品,有翻译成392的,有翻译成39.2亿的(与“乌龙”报告结果一致),甚至还有翻译成392万亿的,比正确结果扩大一亿倍,另外4款都翻译成了3.92亿。测试结果如下列组图所示。
火山翻译:
![[MD:Title]](http://img1.mydrivers.com/img/20210916/9f968fd0-6bcf-4ef9-a237-552686f26000.png)
腾讯翻译君:
![[MD:Title]](http://img1.mydrivers.com/img/20210916/8ab6dc6b-c276-48ea-95f2-ae7ee08aa6e5.png)
以下为其他7款翻译产品的测试结果。
翻译为39.2亿(与国外报告翻译结果一致):
![[MD:Title]](http://img1.mydrivers.com/img/20210916/da3cec8c-8d39-493e-9d40-8ba38662510a.png)
翻译为392:
![[MD:Title]](http://img1.mydrivers.com/img/20210916/5424558d-f968-46f5-8fdd-e1b4574461be.png)
翻译为392万亿:
![[MD:Title]](http://img1.mydrivers.com/img/20210916/323ce667-9da3-4658-8807-f999b0526c63.png)
翻译为3.92亿:
![[MD:Title]](http://img1.mydrivers.com/img/20210916/8e0d0842-9b25-4665-9b5d-0330dda3cc33.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/839646a9-fc65-46ff-8e3e-2a3e45a0df3b.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/6de470d8-6c8a-4336-be74-2fa8da9ac9a1.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/3531fc68-dd11-4245-b49f-dced0d9652e1.png)
数字翻译「英译中」测试
我们用不同软件把英文「3.92687694 million yuan (RMB)」 翻译回中文,会是怎么样的结果?
这次只有火山翻译准确翻译出了392万元人民币。其他8款产品,有翻成3.92万的,有翻成39.2亿的,也有翻成392万亿的,另外5家都翻成了3.92万亿。测试结果见下列组图。
火山翻译:
![[MD:Title]](http://img1.mydrivers.com/img/20210916/49fdcac9-858e-4847-b5e8-78db5a83e229.png)
其他产品的翻译结果:
![[MD:Title]](http://img1.mydrivers.com/img/20210916/9de2221a-dd02-46ad-92d4-7de122a4b9ef.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/07918f39-20c6-40bb-b5a3-37c94f9697ab.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/047a2854-23af-4ea5-960c-04d25e2b3066.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/d381a77c-7040-4a60-bae5-914a0f92f69a.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/6d91360f-c8e5-4093-99e0-236b71f2ac4f.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/7314358c-00f5-4bea-8d20-ae25604e8bc6.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/10ec3a18-005a-4f3a-ab81-5e85cf0ecc64.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/392d31d4-0d99-431d-be3f-cd673bfb7992.png)
数字的重要性毋庸多言,在商业条款中如果翻译错一个数字,可能会带来成千上万的损失;建筑图纸中一个数字翻译的疏漏,就可能导致一项庞大建筑工程轰然倒塌。想要保证数字翻译的准确度,远不是誊写一串阿拉伯数字再翻译单位这么简单。从上面测试中也可以看到,一些国际巨头的翻译产品,在数字翻译中照样会出现偏差万倍甚至上亿倍的错误。
数字翻译难在哪?
数字翻译对翻译者关于目标语言数字表达的理解要求较高,在中英翻译中,数字翻译的难点主要在以下方面:
a.中英语言中不同的数字单位,如1000万翻译成10 million,不能简单地「拷贝」
![[MD:Title]](http://img1.mydrivers.com/img/20210916/cabe5576-fb12-4e8c-8a7b-4e96be1d6bf3.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/15c3af8a-a57f-4d75-9699-160aafd44222.png)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/e35e12cb-d7ff-4395-8d8c-b083f58e060d.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/df549254-1ee0-4e2d-9c3a-e832b34d93a8.png)
b.很长的数字容易带来偏差
![[MD:Title]](http://img1.mydrivers.com/img/20210916/d253f7e5-6f55-432c-a23b-959c5f7eae50.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/7a01d7c0-8d33-413f-b786-c607a8129717.png)
c.超大数字的翻译问题,如trillion、万亿以上的单位
![[MD:Title]](http://img1.mydrivers.com/img/20210916/58c437de-1a47-42c1-a930-e1aaca4ff0f6.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/0b0b758d-2f99-4c78-ae93-807761e30a2d.png)
d.中英语言中不同的计量单位,如中文中的“斤”,容易被翻译成“kg”
![[MD:Title]](http://img1.mydrivers.com/img/20210916/aa650e1a-5bf1-45b7-b1dd-7db77d009330.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/8a517e5a-0840-4ff7-aa6c-d41cc2c6b529.png)
e.带有货币符号的数字容易犯错
![[MD:Title]](http://img1.mydrivers.com/img/20210916/cf217725-4dff-48b2-8457-a31e341ebb65.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20210916/74a41161-433f-4bba-83de-8410fd8a537a.png)
当前,很多翻译软件对数字没有做额外的处理,采用的是与普通文字相同的sequence-to-sequence神经机器翻译模型。这一模型翻译质量较高,流畅性较好,但存在一个显著的缺陷, 就是缺乏常识和推理能力,无法理解对于人类来说比较简单的规则,例如,“万”和“million”的的转换、单位货币之间的不同等。
火山翻译如何解决数字翻译难题?
我们从火山翻译技术分享中了解到,火山翻译的翻译模型见到对应的数字之后,会将其抽取出来,通过推理、计算等智能过程,对数字进行跨语言的语义转换,然后将其置于翻译句子适当的位置中,类似人类的翻译推理过程。
火山翻译是字节跳动旗下火山引擎的AI中台能力之一,技术能力已经在飞书的文档、消息翻译和火山引擎的企业级客户中广泛应用。由于当前机器翻译场景中存在大量的数字内容,数字翻译也一直是火山翻译团队持续优化的重要方向。目前, 火山翻译已经支持56门语言、3080个语向的翻译。

