正文内容 评论(0

阿里发布Qwen3.7-Plus “看、想、写、做、验”一个模型全搞定
2026-06-02 18:43:02  作者:子莹 编辑:子莹     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

6月2日,阿里巴巴发布千问3.7系列多模态大模型Qwen3.7-Plus。该模型文本和视觉能力均大幅提升,在全球视觉大模型榜单 Vision Arena 中跻身全球前五、中国第一。Qwen3.7-Plus实现了多模态混合智能体的新突破,不仅能看懂图片和视频,还能深度推理、自我编程、调用工具、验证测试并自主迭代,将“看、想、写、做、验”整合进统一的智能体工作流,轻松完成一键复刻手机APP应用、桌面端专业软件等复杂长程任务。目前,Qwen3.7-Plus已上线阿里云百炼,对外提供API服务。

阿里发布Qwen3.7-Plus “看、想、写、做、验”一个模型全搞定

图说:三方权威榜单Vision Arena显示,阿里凭借Qwen3.7-Plus,位列全球前五、中国第一

千问3.7是阿里最新推出的大模型系列,两周前发布的Qwen3.7-Max,在全球权威评测Artificial Analysis大模型智能排行榜中位列全球第五、国产第一。Qwen3.7-Plus则是千问3.7系列的最新模型,性能较上代Qwen3.6-Plus进步显著,纯文本能力甚至可接近旗舰模型Qwen3.7-Max的水平,涌现出Plus级别模型最强的编程、Agent、推理及通用能力。在编程实测Terminal Bench 2.0-Terminus、科学问题编程SciCode等评测中,新模型较Qwen3.6-Plus大幅提升约9分,媲美Claude-Opus-4.6Max;在评估通用Agent能力的Skillbench评测中,大幅提升10.2分,展现出强大的智能体能力;在数学推理Apex评测中,Qwen3.7-Plus取得了近3倍于上代模型的性能评分表现。

阿里发布Qwen3.7-Plus “看、想、写、做、验”一个模型全搞定

图说:Qwen3.7-Plus主要评测得分

变得更聪明的Qwen3.7-Plus,还“睁开了眼睛”,并基于智能体的实际需求系统性增强了视觉能力:在纯视觉推理BabyVision评测中,Qwen3.7-Plus得分从上代的37.4大幅提升至64.7,超过了Gemini3.1-Pro,实现了泛化能力的新飞跃;在搜索增强知识问答的 SimpleVQA、MMSearchPlus、MMBC 等权威评测中,新模型较Qwen3.6-Plus性能得分提升最高2倍多,表现大多优于Claude-Opus-4.6 Max、Gemini3.1-Pro,表明千问3.7解决开放问题会更可靠、更准确。

文本与视觉能力的双重提升,也激发出Qwen3.7-Plus崭新的多模态混合智能体能力,可自主闭环执行复杂任务。比如,Qwen3.7-Plus基于强大的GUI感知能力,模拟人与示例股票应用自主交互,并据此自动生成代码;同时,千问3.7还调用工具获取实时数据,自主执行和通过了10项核心测试,一比一复刻了这一桌面端的复杂应用。

阿里发布Qwen3.7-Plus “看、想、写、做、验”一个模型全搞定

图说:Qwen3.7-Plus完整复刻复杂应用

Qwen3.7-Plus更会使用工具,解锁了更多完成视觉任务的潜力:集成CI代码解释器后,千问3.7可以轻松找不同、解华容道、走迷宫、拼拼图;接入搜索增强后,给一张工厂里模糊的专业机械图,千问3.7就能将该设备的功能、参数剖析地准确、清晰,视觉推理更准更强;只需一张照片、截图、草图乃至一段视频,Qwen3.7-Plus 就可以通过“视觉编程”交付一个完整的SVG动画或是精美网页。

Agentic时代,AI从“对话”走向“干活”,千问3.7为迈向现实世界做好准备。Qwen3.7-Plus不但能看懂图片,还能更好地理解视频和驾驶场景,不论是视频中的事件、动作、时序和语义关系,还是真实世界的动态场景、交通参与者和空间关系,千问3.7的理解能力均大为增强,为多模态智能体在自动驾驶、具身智能等真实世界中发挥作用打下基础。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:子莹

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#Qwen3

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...