推理水平对标OpenAI o1！阿里云开源首个AI推理模型QwQ：数学、编程尤为出色--快科技--科技改变未来

正文内容 评论（0）

推理水平对标OpenAI o1！阿里云开源首个AI推理模型QwQ：数学、编程尤为出色

2024-11-28 16:18:09 出处：快科技作者：黑白编辑：黑白评论(0)

#阿里云 #通义

快科技11月28日消息，今天，阿里云通义团队宣布推出并同步开源了全新的AI推理模型——QwQ-32B-Preview。

评测显示，预览版本的QwQ（Qwen with Questions）在科学推理能力上展现出研究生水平，尤其在数学和编程领域表现卓越，其整体推理能力可与OpenAI的o1相媲美。

据介绍，QwQ是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。

阿里云通义千问团队研究发现，当模型有足够的时间思考、质疑和反思时，其对数学和编程的理解就会深化，基于此QwQ取得了解决复杂问题的突破性进展。

在衡量科学问题解决能力的GPQA评测集中，QwQ达到了65.2%的准确率，显示出其研究生水平的科学推理能力；在AIME评测中，QwQ以50%的胜率证明了其解决数学问题的能力。

在MATH-500评测中，QwQ以90.6%的高分超越了o1-preview和o1-mini。在评估高难度代码生成的LiveCodeBench评测中，QwQ答对了一半的题目，在编程竞赛题场景中也有出色表现。

不仅如此，QwQ在面对复杂问题时，能够进行深度自省，质疑自身假设，并通过深思熟虑的自我对话，仔细审视其推理过程的每一步。

例如，在解决经典智力题“猜牌问题”时，QwQ通过梳理对话和推演，像个擅长思考的人一样，并最终得出正确答案。

目前，QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源，发布短短几小时，引起全球开发者热情体验。

有开发者认为该模型“是完全没有预料到的疯狂的跃进”、“今年开源领域最重大的突破”、“让中国在开源大模型和AI推理上占据先机”。

不过通义团队也表示，虽然QwQ展现了强大的分析能力，但其仍是个供研究的实验型模型，存在不同语言的混合使用、偶有不恰当偏见、对专业领域问题不了解等局限，未来随着研究深入模型迭代，这些问题将逐步得到解决。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：黑白

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#阿里云 #通义 #大模型

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波