新华社研究院报告：四大专业维度36项子能力文心一言大模型综合指数排名第一--快科技--科技改变未来

正文内容 评论（0）

新华社研究院报告：四大专业维度36项子能力文心一言大模型综合指数排名第一

2023-06-10 14:57:34 作者：清晨编辑：清晨评论(0)

人工智能技术迎来了新一轮大变革，ChatGPT在推出短短2个月后便成为了月活破亿的应用。近日，新华社研究院中国企业发展研究中心对主流大模型产品进行了体验评测，发布了《人工智能大模型体验报告》（以下简称《报告》）。

《报告》显示，百度文心一言总得分位居国内第一，并在基础能力、智商、情商、工作提效等维度均获国内第一。在智商测试维度，百度文心一言得分超过Chat-GPT3.5。

新华社研究院主要承担国家高端智库建设等工作，以政策研究为主攻方向，围绕国内外重大问题开展前瞻性、战略性、储备性研究。为直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点，新华社研究院中国企业发展研究中心于今年4月启动了人工智能产业创新活力研究。本次研究设置了用户体验项目，抓取了05月22日—05月26日数据，对国内主流大模型进行使用体验评测，旨在为科技企业调整努力方向提供参考。

在综合指数评价方面，本次评测选取4大维度（基础能力、智商测试、情商测试、工作提效能力）、36个子能力，共300个问题，对目前主流大模型产品进行测试，并邀请相关专家组成评测团队深入分析各个产品的语义理解、知识储备、逻辑能力等，最终得出各厂商的大模型综合指数评价。

综合评测结果显示：由OpenAI开发的Chat-GPT系列模型各项指标表现优异，Chat-GPT4.0版本各项能力在3.5版本的基础上均有一定程度提升；由百度开发的人工智能大模型文心一言是目前国内自主研发的大模型中具有优势的产品。其余大模型产品也在基础能力方面表现优良，但面对较复杂的工作内容或情商环境仍有不同程度的进步空间。

针对各维度能力测评，该报告也给出了相应的案例展示和分析。基础能力部分，百度文心一言表现最为抢眼。