《人工智能大模型体验报告2.0》发布这几家性能排名前三！--快科技--科技改变未来

正文内容 评论（0）

《人工智能大模型体验报告2.0》发布这几家性能排名前三！

2023-08-14 11:37:56 作者：cici 编辑：cici 评论(0)

ChatGPT 崛起引发新一轮生成式AI热潮，国内科技企业纷纷布局。据不完全统计，截至目前，国内大模型数量已达上百个。在这些大模型中，谁的表现最好，智能性最高，用户体验最强？8月12日，新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》（以下简称报告）给出了答案。

[MD:Title]

报告显示，与2023年6月相比，当前中国大模型产品进步显著。

具体来看，讯飞星火在工作提效方面优势明显，百度文心一言基础能力表现出色，商汤商量则在情商方面表现优秀。

落实到基础能力、智商能力、情商能力和工具提效四大能力综合得分上，当前国内各主流大模型中，排名前五的分别为科大讯飞星火、百度文心一言、商汤商量、智谱ChatGLM和360智脑。

其中科大讯飞得分1013，仅比人类答案落后1分；百度文心一言1010分，商汤商量983分，智谱ChatGLM和360智脑分别为983分、951分。

[MD:Title]

据了解，此次测评为保证结果的客观公平性，无论是在题目设计上、对标Benchmark（人类）上，还是打分权重、专家测评团队上，相对于6月份的《人工智能大模型体验报告》，均进行了全面升级。

其中，在题目设计方面，测评题目由300道扩展至500道，并进一步完善了题目分类；

在对标Benchmark方面，本次测评将接受过高等教育的人类作为对照，来考评大模型真实能力；

在打分标准上，本次测评根据对产业、生活的实际价值，对基础能力、智商能力、情商能力和工具提效四大测评维度进行了权重设计；

在测评团队方面，本次测评特邀北京大学文化与传播研究所及其他产界、学界专家全程参与。

此外，本次测评还设置了用户体验项目，抓取了7月31日—8月4日数据，通过人机互动提问等形式，对国内主流大模型进行使用体验评测，旨在为科技企业调整努力方向提供参考。

报告显示，在智商评估方面，人类在智商方面仍然具有明显优势。

课题组分别从常识知识（20%）、逻辑能力（50%）和专业知识（30%）方面对科技企业大模型进行考量。

结果显示，讯飞星火、智谱AI-ChatGLM表现突出，百度文心一言、昆仑万维天工表现优良。

[MD:Title]

在工作效率提升方面，课题组重点在工具提效（50%）和生成创新（50%）方面进行考量。

结果显示，讯飞星火表现最为抢眼，百度文心一言、商汤商量、智谱AI-ChatGLM表现优良。

在情商方面，AI与人类之间的差距最为明显。人类在情绪理解和处理方面通常具有更强的优势，和更灵活的处理能力。

通过对处理日常事项（35%）、一语双关（30%）、人际关系（35%）问题进行分析发现，科技企业大模型中，商汤商量表现亮眼，百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM及360智脑均表现优良。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#快讯

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波