有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了--快科技--科技改变未来

当前位置：首页 > 资讯中心 > 软件之家 > 电脑软件 > 文章详情

正文内容 评论（0）

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了

2024-02-02 18:32:22 出处：快科技作者：无痕编辑：无痕评论(0)

#ChatGPT #科大讯飞

第一页前言：七大维度全面升级讯飞星火认知大模型3.5来了
第二页全新的语音交互体验：以最自然的方式进行对话毫无机械感
第三页国内外大模型对比测试：多项领域比肩ChatGPT 4.0 全面超越文心一言
第四页总结：讯飞星火V3.5与Chat GPT4 不相仲伯

三、国内外大模型对比测试：多项领域比肩ChatGPT 4.0 全面超越文心一言

接着，为了测试讯飞星火 V3.5在国际中的地位，我们使用国内的另一大模型文心一言和国外的ChatGPT 4.0进行一次全面的测试对比。

1、常规问答

（1）已知问题测试

①中国2020年GDP是多少人民币

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

三个大模型的回答准确无误，讯飞星火 V3.5和文心一言V4.0均给到了各大产业的占比以及增幅比，不过讯飞分析的更加透彻，说到2020年这一特殊的年份，国内GDP增长的不易和国家正确的决策，能够深入理解复杂的趋势和事件。

Chat-GPT4.0则是直接给出了具体的数据，没有做过多的信息扩展。

②最近一次的东京奥运会的奖牌榜前5名的国家和奖牌数分别是？

讯飞星火V3.5

文心一言4.0

Chat-GPT4.0

第二个问题，只有讯飞星火3.5给出了正确的答案，文心一言则仅给到了前三的国家和奖牌数量，没有完整地回答问题，而ChatGPT的答案则出现了错误（中国共89枚奖牌）。

③全球第一款16GB内存的智能手机是什么型号？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第三个问题，面对机圈的问题，只有Chat-GPT4.0给到了正确答案，全球第一款16GB内存的智能手机，是2020年年初发布的三星Galaxy S20 Ultra。

（2）未知问题测试

①世界第一高峰与世界第二高峰相差多少米？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于世界之最这类问题，讯飞星火V3.5给出的是岩面高度差，回答正确，文心一言和Chat-GPT给到的则是雪面高度差，精度一致，没有任何问题。

2、逻辑推理能力

（1）鲁迅为什么暴打周树人？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于“鲁迅为什么暴打周树人”这种问题，讯飞星火、文心一言和ChatGPT4都能完美避坑，给出了鲁迅和周树人是同一个人的答案。

（2）昨天的当天是明天的什么？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第二个问题，昨天的当天是明天的什么？讯飞星火V3.5和Chat-GPT4.0通过逻辑判断均给出了正确答案，“前天”，而文心一言则给出“昨天的当天是明天的昨天”的答案，回答错误。

（3）龙龙的妈妈有4个孩子，其中3个孩子分别叫贝贝，天天和乐乐，请问她的第4个孩子叫什么？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第三个问题，三个大模型均成功避坑，讯飞和GPT4分析的最简洁最到位，文心一言则通过一顿逻辑判断和理解输出了正确的答案，过程稍有些复杂，不够简洁。

（4）脸盆里面漂浮着一块冰，请问冰融化之后，脸盆的水面是上升还是下降？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着是一个物理常识问题，讯飞回答错误，文心一言V4.0和GPT4.0均回答正确，冰融化之后，水面既不会上升也不会下降，并且给出了详细的逻辑分析。

看来，讯飞星火V3.5在初中物理知识方面，相较于Chat-GPT4.0还有点欠缺。

3、数学解题能力

（1）鸡兔同笼，头共67，足共184，问鸡兔各几只？请一步一步地作答

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

面对鸡兔同笼问题，讯飞和GPT4.0均以二元一次方程计算后给出了正确答案，讯飞星火给到了完整的解题过程，甚至连计算过程都精确的呈现出来，而文心一言和Chat-GPT4.0的回答过程则较为简略，以推理的过程为主。

（2）如果一个直角三角形的两条边长分别是6和8，另一个与它相似的直角三角形边长分别是3、4及x，那么x的值是多少？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着是第二个数学问题，面对这种没有给到对应数值的两边长度，我们一般会分析到两种不同的可能性，因此这道题的标准答案会有2个，很显然讯飞星火3.5全都顾及到了，给出了两个正确的答案。

而文心一言V3.5和Chat GPT4.0只给出了一种正确的可能性。

所以，通过以上测试的数学问题来看，讯飞星火V3.5的解题能力已经在国际中处于领先水平，甚至在部分能力上已经超越了Chat GPT4.0。

4、代码能力

现在许多程序员也会使用大模型来解决问题，因此在代码的编写和解释能力上，我们也测试了一番。

（1）代码编写

使用PyQt5搭建-个窗口，点击按钮之后，有50%的概率把按钮移动到窗口的随机位置，还有50%的概率把按钮的标题改成随机数。不要有多余的解释，直接给出可以运行的代码。

讯飞星火V3.5

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了
文心一言V4.0

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了

Chat-GPT 4.0

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了

在代码编写能力上，三款大模型均能够精准理解需求，写出bug的程序，放到解释器里完美运行。

（2）解释代码

讯飞星火V3.5

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了
文心一言V4.0

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了
Chat-GPT4.0

我们给到一段代码让三个大模型进行解释，三者均会根据每行的代码进行解释，文心一言给到的解释要更偏向小白，逻辑非常清晰，新手也能一目了然。

讯飞给到的解释与GPT4.0差不太多，所以在代码编辑和解释能力上，讯飞星火3.5、Chat GPT 4.0大体相当。

5、知识问答：文章提问

为了测试三种大型语言模型对语文理解能力的差异，我们选取了一段高中阅读理解材料，让这些模型阅读并回答相关问题。

通过这种方式，我们可以比较它们在文字理解方面的表现。

我们给到这段文字，让三款大模型进行阅读，接着进行提问。

问题一：请问永嘉山水适合隐居的原因是什么？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第一个问题，讯飞星火3.5给到的原因是最全面的，也是最准确的，从根本上回答了这个问题，文心一言3.5给到的答案也比较准确，不过并没有讯飞全面。

Chat GPT4.0给到的回答比较深入，也就是说它能够进一步理解作者所表达的内在思想与含义，也就是说Chat GPT4.0对文字的理解要更加深刻。

问题二：请简要总结这篇文章的主旨，要求在350字以内。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于语言的理解，讯飞星火 V3.5 和 GPT-4 在处理自然语言任务时都展现出了合格的理解能力，然而在综合比较中，GPT-4 在理解和表达方面显得更为精准与细腻。

6、文生图能力

在多模态能力上，我们测试对比了大模型文生图的能力，根据描述的文字画出图片。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

可以看到，三款大模型均能够理解文字所表达的意思，并画出准确的装修效果图。

不过讯飞星火V3.5和Chat GPT4.0绘制的图片细腻程度和精美程度上均优于文心一言3.5，二者在文生图的能力上，不相仲伯。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着我们提高了难度，让三款大模型在上一幅图的基础上进行二次创作，虽然均不能还原上一幅图中的全部样貌，但讯飞星火V3.5和Chat GPT4.0均能以接近上一幅图的场景进行二次创作，并精确理解了“墙面上的画”指的是什么内容。

文心一言V4.0应该说是理解了题目中的一般要求，把“春江水暖鸭先知”的含义放在了整个画面当中，并没有理解“墙面上的画中”是什么东西，导致与要求的本意产生了较大的偏差，也让最终的呈现效果与预期有一定的出入。

反观讯飞星火V3.5和Chat GPT4.0，在语义理解能力方面表现出色，两者的能力接近，甚至达到了相似的水平。

责任编辑：无痕

文章内容举报

内容导航

第一页前言：七大维度全面升级讯飞星火认知大模型3.5来了
第二页全新的语音交互体验：以最自然的方式进行对话毫无机械感
第三页国内外大模型对比测试：多项领域比肩ChatGPT 4.0 全面超越文心一言
第四页总结：讯飞星火V3.5与Chat GPT4 不相仲伯

相关资讯

支持打赏
支持0人
反对
打赏

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#ChatGPT #科大讯飞 #讯飞星火 #讯飞星火认知大模型 #人工智能 #AI #大模型 #星火认知大模型 #文心大模型

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

关于我们
关于我们
隐私权说明

交流合作
加入我们
意见反馈
广告刊例

关注我们
微信公众号：
微博号：快科技官方
QQ群：53467377

安卓客户端下载
IOS客户端下载

APP下载

手机扫码下载

支持Android/iOS/iPad
投稿
纠错

线索爆料

爆料群

爆料1群

打开微信扫一扫
扫描入群，加入爆料
意见反馈
评论
返回顶部