正文内容 评论(0

首个图像生成基础模型 阿里通义千问深夜开源Qwen-Image 支持中英双语
2025-08-05 06:55:00  出处:快科技 作者:拾柒 编辑:拾柒     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

快科技8月5日消息,今天凌晨,阿里通义千问宣布开源Qwen-Image,一个20B的MMDiT模型。

这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得显著进展。

据了解,该模型专注于提升AI在两大核心场景的能力:复杂的文本渲染与精准的图像编辑。

功能亮点:

强大的文字渲染能力(本次开源)

效果领先:在多个文本测评榜单中,文字渲染均获得SOTA。

原生渲染:文字是图像生成时直出的,而非后期添加,效果更真实。

功能全面:支持中英双语,多变字体,超长段落,超小文字,并可实现复杂的多位置图文布局。

基础扎实:除了文字,模型在人物情绪、细节刻画和多样的风格渲染上也同样表现出色。

精准的图像编辑能力(即将发布)

效果稳定:多个图像编辑测评榜单SOTA。

链式编辑:在多轮连续修改后,仍能保持主体ID的一致性。

文字编辑:可以编辑图像中的文字。

复杂编辑:可编辑人物姿势,提取图像纹理等。

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

通义千问在多个公开基准上对Qwen-Image进行全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。

Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

除了文本处理,Qwen-Image在通用图像生成方面也表现出色,支持多种艺术风格。

在图像编辑方面,Qwen-Image支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作,让普通用户也能轻松实现专业级图像编辑。

首个图像生成基础模型 通义千问深夜开源Qwen-Image 支持中英双语

【本文结束】如需转载请务必注明出处:快科技

责任编辑:拾柒

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...