正文内容 评论(0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
2024-02-02 18:32:22  出处:快科技 作者:无痕 编辑:无痕     评论(0)点击可以复制本篇文章的标题和链接

三、国内外大模型对比测试:多项领域比肩ChatGPT 4.0 全面超越文心一言

接着,为了测试讯飞星火 V3.5在国际中的地位,我们使用国内的另一大模型文心一言和国外的ChatGPT 4.0进行一次全面的测试对比。

1、常规问答

(1)已知问题测试

①中国2020年GDP是多少人民币

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

三个大模型的回答准确无误,讯飞星火 V3.5和文心一言V4.0均给到了各大产业的占比以及增幅比,不过讯飞分析的更加透彻,说到2020年这一特殊的年份,国内GDP增长的不易和国家正确的决策,能够深入理解复杂的趋势和事件。

Chat-GPT4.0则是直接给出了具体的数据,没有做过多的信息扩展。

②最近一次的东京奥运会的奖牌榜前5名的国家和奖牌数分别是?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

第二个问题,只有讯飞星火3.5给出了正确的答案,文心一言则仅给到了前三的国家和奖牌数量,没有完整地回答问题,而ChatGPT的答案则出现了错误(中国共89枚奖牌)。

③全球第一款16GB内存的智能手机是什么型号?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

第三个问题,面对机圈的问题,只有Chat-GPT4.0给到了正确答案,全球第一款16GB内存的智能手机,是2020年年初发布的三星Galaxy S20 Ultra。

(2)未知问题测试

①世界第一高峰与世界第二高峰相差多少米?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

对于世界之最这类问题,讯飞星火V3.5给出的是岩面高度差,回答正确,文心一言和Chat-GPT给到的则是雪面高度差,精度一致,没有任何问题。

2、逻辑推理能力

(1)鲁迅为什么暴打周树人?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

对于“鲁迅为什么暴打周树人”这种问题,讯飞星火、文心一言和ChatGPT4都能完美避坑,给出了鲁迅和周树人是同一个人的答案。

(2)昨天的当天是明天的什么?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

第二个问题,昨天的当天是明天的什么?讯飞星火V3.5和Chat-GPT4.0通过逻辑判断均给出了正确答案,“前天”,而文心一言则给出“昨天的当天是明天的昨天”的答案,回答错误。

(3)龙龙的妈妈有4个孩子,其中3个孩子分别叫贝贝,天天和乐乐,请问她的第4个孩子叫什么?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

第三个问题,三个大模型均成功避坑,讯飞和GPT4分析的最简洁最到位,文心一言则通过一顿逻辑判断和理解输出了正确的答案,过程稍有些复杂,不够简洁。

(4)脸盆里面漂浮着一块冰,请问冰融化之后,脸盆的水面是上升还是下降?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

接着是一个物理常识问题,讯飞回答错误,文心一言V4.0和GPT4.0均回答正确,冰融化之后,水面既不会上升也不会下降,并且给出了详细的逻辑分析。

看来,讯飞星火V3.5在初中物理知识方面,相较于Chat-GPT4.0还有点欠缺。

3、数学解题能力

(1)鸡兔同笼,头共67,足共184,问鸡兔各几只?请一步一步地作答

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

面对鸡兔同笼问题,讯飞和GPT4.0均以二元一次方程计算后给出了正确答案,讯飞星火给到了完整的解题过程,甚至连计算过程都精确的呈现出来,而文心一言和Chat-GPT4.0的回答过程则较为简略,以推理的过程为主。

(2)如果一个直角三角形的两条边长分别是6和8,另一个与它相似的直角三角形边长分别是3、4及x,那么x的值是多少?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

接着是第二个数学问题,面对这种没有给到对应数值的两边长度,我们一般会分析到两种不同的可能性,因此这道题的标准答案会有2个,很显然讯飞星火3.5全都顾及到了,给出了两个正确的答案。

而文心一言V3.5和Chat GPT4.0只给出了一种正确的可能性。

所以,通过以上测试的数学问题来看,讯飞星火V3.5的解题能力已经在国际中处于领先水平,甚至在部分能力上已经超越了Chat GPT4.0。

4、代码能力

现在许多程序员也会使用大模型来解决问题,因此在代码的编写和解释能力上,我们也测试了一番。

(1)代码编写

使用PyQt5搭建-个窗口,点击按钮之后,有50%的概率把按钮移动到窗口的随机位置,还有50%的概率把按钮的标题改成随机数。不要有多余的解释,直接给出可以运行的代码。

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT 4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

在代码编写能力上,三款大模型均能够精准理解需求,写出bug的程序,放到解释器里完美运行。

(2)解释代码

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

我们给到一段代码让三个大模型进行解释,三者均会根据每行的代码进行解释,文心一言给到的解释要更偏向小白,逻辑非常清晰,新手也能一目了然。

讯飞给到的解释与GPT4.0差不太多,所以在代码编辑和解释能力上,讯飞星火3.5、Chat GPT 4.0大体相当。

5、知识问答:文章提问

为了测试三种大型语言模型对语文理解能力的差异,我们选取了一段高中阅读理解材料,让这些模型阅读并回答相关问题。

通过这种方式,我们可以比较它们在文字理解方面的表现。

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

我们给到这段文字,让三款大模型进行阅读,接着进行提问。

问题一:请问永嘉山水适合隐居的原因是什么?

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

第一个问题,讯飞星火3.5给到的原因是最全面的,也是最准确的,从根本上回答了这个问题,文心一言3.5给到的答案也比较准确,不过并没有讯飞全面。

Chat GPT4.0给到的回答比较深入,也就是说它能够进一步理解作者所表达的内在思想与含义,也就是说Chat GPT4.0对文字的理解要更加深刻。

问题二:请简要总结这篇文章的主旨,要求在350字以内。

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

对于语言的理解,讯飞星火 V3.5 和 GPT-4 在处理自然语言任务时都展现出了合格的理解能力,然而在综合比较中,GPT-4 在理解和表达方面显得更为精准与细腻。

6、文生图能力

在多模态能力上,我们测试对比了大模型文生图的能力,根据描述的文字画出图片。

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

可以看到,三款大模型均能够理解文字所表达的意思,并画出准确的装修效果图。

不过讯飞星火V3.5和Chat GPT4.0绘制的图片细腻程度和精美程度上均优于文心一言3.5,二者在文生图的能力上,不相仲伯。

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
讯飞星火V3.5

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
文心一言V4.0

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了
Chat-GPT4.0

接着我们提高了难度,让三款大模型在上一幅图的基础上进行二次创作,虽然均不能还原上一幅图中的全部样貌,但讯飞星火V3.5和Chat GPT4.0均能以接近上一幅图的场景进行二次创作,并精确理解了“墙面上的画”指的是什么内容。

文心一言V4.0应该说是理解了题目中的一般要求,把“春江水暖鸭先知”的含义放在了整个画面当中,并没有理解“墙面上的画中”是什么东西,导致与要求的本意产生了较大的偏差,也让最终的呈现效果与预期有一定的出入。

反观讯飞星火V3.5和Chat GPT4.0,在语义理解能力方面表现出色,两者的能力接近,甚至达到了相似的水平。

责任编辑:无痕

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...