正文内容 评论(0)
快科技6月11日消息,据媒体报道,智象未来(HiDream.ai)推出的商用版图像生成模型HiDream-O1-Image-1.5,在全球知名独立 AI 模型评测平台Artificial Analysis的文生图榜单(Text to Image Leaderboard)中位列全球第二,综合评分仅次于 OpenAI。
该榜单采用匿名对比、用户投票与ELO动态排名机制,最大程度降低品牌认知对评测结果的影响,更能反映真实用户在开放生成场景中的偏好判断。
在这一专业评测体系下,HiDream-O1-Image-1.5在超过4000个样本对比中获得了1265 ELO评分。该成绩不仅体现了模型在图像质量上的竞争力,也反映出其在语义遵循、复杂画面生成、文字渲染及多主体控制等综合能力上的显著提升。
据悉,半个月前,智象未来HiDream-O1系列的开源模型HiDream-O1-Image-Dev-2604刚刚拿下文生图榜单开源模型全球第一。开源版本证明了像素级原生全模态架构能够在开放评测与开发者社区中顺利跑通。
此次表现优异的HiDream-O1-Image-1.5商用版本,则进一步面向广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP 创作等更高要求的商业场景,展现出强大的图像质量、文字渲染、复杂排版、多主体一致性及视觉叙事能力。
HiDream-O1-Image-1.5的技术核心是其原生全模态架构——Unified Transformer(UiT)。
与传统文生图模型常见的“文本编码器 + VAE + 扩散模型”模块化路径不同,UiT从底层将图像像素、文本Token、视频体素以及音频、动作、空间关系等原始信号映射进同一个共享Token空间,由同一套Transformer完成理解、生成与推理。
这意味着模型不再需要在不同模态之间反复转换信息,从而在文字密集排版、多主体生成、分镜叙事等复杂任务中显著减少了细节损耗与语义错位。
智象未来的长期目标是构建原生全模态世界模型。其理念在于:一张图像承载着现实世界某一时刻的主体、空间、材质、光影与关系——只有稳定理解并生成这些状态,模型才能进一步处理连续时间中的运动、因果、镜头和叙事。
HiDream-O1-Image-1.5的表现验证了UiT架构的可扩展性,也为后续多图一致性、视频首帧生成乃至长视频生成提供了更稳定的底层能力。
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...



