首个图像生成基础模型阿里通义千问深夜开源Qwen-Image 支持中英双语--快科技--科技改变未来

正文内容 评论（0）

首个图像生成基础模型阿里通义千问深夜开源Qwen-Image 支持中英双语

2025-08-05 06:55:00 出处：快科技作者：拾柒编辑：拾柒评论(0)

复制

纠错

#通义千问 #大模型

快科技8月5日消息，今天凌晨，阿里通义千问宣布开源Qwen-Image，一个20B的MMDiT模型。

这是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得显著进展。

据了解，该模型专注于提升AI在两大核心场景的能力：复杂的文本渲染与精准的图像编辑。

功能亮点：

强大的文字渲染能力（本次开源）

效果领先：在多个文本测评榜单中，文字渲染均获得SOTA。

原生渲染：文字是图像生成时直出的，而非后期添加，效果更真实。

功能全面：支持中英双语，多变字体，超长段落，超小文字，并可实现复杂的多位置图文布局。

基础扎实：除了文字，模型在人物情绪、细节刻画和多样的风格渲染上也同样表现出色。

精准的图像编辑能力（即将发布）

效果稳定：多个图像编辑测评榜单SOTA。

链式编辑：在多轮连续修改后，仍能保持主体ID的一致性。

文字编辑：可以编辑图像中的文字。

复杂编辑：可编辑人物姿势，提取图像纹理等。

通义千问在多个公开基准上对Qwen-Image进行全面评估，包括用于通用图像生成的GenEval、DPG和OneIG-Bench，以及用于图像编辑的GEdit、ImgEdit和GSO。

Qwen-Image在所有基准测试中均取得了最先进的性能，展现出其在图像生成与图像编辑方面的强大能力。

此外，在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明，Qwen-Image在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型。

除了文本处理，Qwen-Image在通用图像生成方面也表现出色，支持多种艺术风格。

在图像编辑方面，Qwen-Image支持风格迁移、增删改、细节增强、文字编辑，人物姿态调整等多种操作，让普通用户也能轻松实现专业级图像编辑。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：拾柒

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#通义千问 #大模型 #Qwen-Image

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波