腾讯：我们发现了ChatGPT的又一个短板--快科技--科技改变未来

正文内容 评论（0）

腾讯：我们发现了ChatGPT的又一个短板

2023-02-13 22:24:57 出处：雷峰网作者：孙溥茜编辑：上方文Q 评论(0)

#ChatGPT #腾讯

ChatGPT一出，学界、工业界无不惊为天人。一位研究机构的资深研究员就对AI科技评论说过：“ChatGPT出来，直接给我们整不会了——生成做的比我们好就不说了，NLP（自然语言处理）能力还比我们强不少。”

微软注资百亿美元，谷歌则如临大敌，ChatGPT在科技圈里掀起的巨浪，仍是现在进行时。

但是，ChatGPT并非“万能钥匙”——大模型在某些专业领域的准确度，仍然无法超越其他垂类产品。

近日，腾讯AI Lab 就通过实验证明，在机器翻译领域，ChatGPT在某些情况下，能力弱于其他商业翻译产品。

论文地址：https://arxiv.org/pdf/2301.08745v1.pdf

1、ChatGPT是个好翻译吗？

腾讯AI Lab的调查文指出：

首先，在高资源环境——如欧洲语言上——ChatGPT的表现与商业翻译产品（如谷歌翻译、DeepL Translate）相比具有竞争力，但是，在低资源环境明显落后，如古代语言；

其次，在翻译的鲁棒性上，ChatGPT在生物医学摘要、或Reddit评论方面表现不如商业翻译产品，但是在口语方面也许会是一个很好的翻译工具。

为了更好地理解ChatGPT的翻译能力，腾讯AI Lab从以下三个方面开展实验：

提示词（Prompt）翻译：

ChatGPT是一个大型语言模型，在翻译时需有提示词（Prompt）作为引导才能引导系统进行翻译。所以，提示词的风格会影响翻译输出的质量。例如，在多语言机器翻译模型中，如何将两种语言信息联系起来非常重要，这通常是通过附加语言标记来解决。

多语言翻译：

ChatGPT是一个处理各种NLP任务并涵盖不同语言的单一模型，可以被视为一个统一的多语言机器翻译模型。因此，ChatGPT在资源差异（如高与低）和语系差异（如欧洲与亚洲）上的表现是该实验所探讨的重点之一。

翻译鲁棒性：

ChatGPT是基于GPT-3开发的模型，GPT-3在涵盖各种领域的大规模数据集进行上训练，因此，在特定领域的表现，是这次研究者们的重点之一。

提示词翻译

为了设计触发ChatGPT机器翻译能力的提示词，腾讯AI Lab团队向ChatGPT提出以下prompt：

提供十个可以让你翻译的简明提示或模版

并获得图1中的结果：

图1: ChatGPT推荐的10个可引发其进行机器翻译的prompt

生成的提示语看起来很合理，但是都有相似的格式，研究人员将它们总结成三个候选prompt（如图2），其中[SRC] 和 [TGT] 分别代表翻译的源语言和目标语言。

另外，研究人员在Tp2中增加了一个额外命令，要求ChatGPT不要在翻译的句子上加双引号（在原始格式中经常发生）。

尽管如此，ChatGPT依旧不稳定，如会将同一批次的多行句子翻译成单行。

图2：候选翻译提示

研究人员将三种不同的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较，图3显示了ChatGPT和其他三个翻译软件的结果。

虽然ChatGPT提供了相当好的翻译，但它仍然落后于基线至少5.0个BLEU点。

关于三个候选prompt，Tp3在所有指标方面表现的最好，因此在这篇论文中，研究者默认使用Tp3。

图3：在中译英翻译任务中ChatGPT使用不同提示语的翻译表现对比

多语言翻译

腾讯AI Lab选择了四种语言来评估ChatGPT在多语言翻译中的能力，包括德语（De）、英语（En）、罗马尼亚语（Ro）和中文（Zh），这些语言在研究和竞赛中都被普遍采用。

前三种语言同来自拉丁语系，而后一种则来自中文语系。

研究人员测试了任意两种语言间的翻译表现，共涉及12次翻译。

资源差异

通过实验发现，在同语系中不同语言也存在资源差异。在机器翻译中，德英互译通常被认为是一个高资源任务，有超过1000万条语料，罗马尼亚语与英语间互译语料要少得多。

如图4所示，ChatGPT在德译英和英译德上，与谷歌翻译和DeepL可以分庭抗礼；而在罗马尼亚语译英，和英译罗马尼亚语方面，则要明显落后。

具体来说，ChatGPT在英译罗马尼亚语上获得的BLEU分数比谷歌翻译低了46.4%。

图4：ChatGPT在多语言翻译中的表现

研究者认为，英语和罗马尼亚语之间的单一语言数据的巨大资源差异，限制了罗马尼亚语的语言建模能力，这部分解释了将英语翻译成罗马尼亚语表现差的原因。

相反，罗马尼亚语译成英语可以受益于强大的英语建模能力，使平行数据的资源缺口可以得到一定程度的补偿。

语系

同时，研究人员也考虑了语系的影响。

通常认为，对于机器翻译，不同语系之间的翻译通常比同一语系间翻译更难。

研究人员发现，德英互译、汉英互译，或者德汉互译在文化和书写方式上存在差异。

另外可以发现，在这几种翻译中，ChatGPT和几款商业翻译软件间差距较大，研究者认为，这是因为在同一语系中知识转移比在不同语系间要好，对于既是低资源又来自不同语系的语言来说（如罗马尼亚语和汉语的互译），这种差距会进一步扩大。

由于ChatGPT在一个模型中处理不同的任务，低资源的翻译任务不仅与高资源的翻译任务竞争，而且还与其他NLP任务竞争模型容量，这说明其性能表现欠佳。

翻译鲁棒性

腾讯AI Lab进一步评估了ChatGPT在WMT19 Bio和WMT20Rob2和Rob3测试集上的翻译鲁棒性，这些测试集引入了领域偏见和潜在的噪声数据。

例如WMT19 Bio测试集是由Medline摘要组成的，这需要特定领域的知识处理，WMT20Rob2是来自Reddit的评论，可能包含各种错误，如拼写错误、单词遗漏、插入重复、语法错误、破坏性语言，和网络俚语等。

图5列出了BLEU分数，显然ChatGPT在WMT19 Bio和WMT20Rob2测试集上的表现不如谷歌翻译和DeepL Translate。

图5：ChatGPT在翻译鲁棒性方面的表现

原因可能在于，像谷歌翻译这样的商业翻译产品往往需要不断提高其翻译特定领域（如生物医学）或噪音句子的能力，因为它们是现实世界的应用，需要对分布之外的数据有更好地概括性，ChatGPT不太能够完成这一点。

不过，一个有趣的发现是，ChatGPT在包含众包语音识别语料的WMT20Rob3测试集上大大超过了谷歌翻译和DeepL Translate。

这表明，ChatGPT本质上是一个人工智能对话工具，能够比商业翻译软件生成更自然的口语（见图6）。

图6：来自WMT20鲁棒集set3的例子

2、ChatGPT应如何扬长避短？

从该研究可知，高举高打的ChatGPT每训练一次就耗费大量算力资源，但也不能在全领域尽善尽美。

所以，一些人开始思考，是否应该“摒弃”大模型思路，转而去做“精耕细作”的小模型。

腾讯AI Lab在Chat GPT“测评”中提到，罗马尼亚语与英语互译，相较德英互译存在较大差距，原因在于：巨大资源差异，限制了罗马尼亚语的语言建模能力，也恰恰证明，AI学习能力常常受到低资源的掣肘。

但也有资深学者认为，尽管现时ChatGPT仍存在不少不足之处，但仍然对研究者和创业者有着不少启示。

以ChatGPT为代表的AI 3.0走的是跟过去 AI 浪潮不一样的路，即更落地、更接近真实世界，在工业应用上，更直接，更落地，从学术研究到工业落地的路径也变得更短、更快。

未来，“helpful, truthful, harmless”的 AI 系统会成为现实。

责任编辑：上方文Q

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#ChatGPT #腾讯 #人工智能

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波