正文内容 评论(0

把信息图做对、做好 商汤日日新SenseNova-U1啃下这块硬骨头
2026-05-29 17:37:06  作者:cici 编辑:cici     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

信息图(infographic)是 AI 图像生成领域公认最难的场景——它要求模型同时做到:文字写准、版式排美、图表画清晰,缺一不可。

商汤日日新SenseNova-U1-8B-MoT-Infographic (信息图增强版),在原生统一模型 SenseNova-U1-8B-MoT 基础上,针对信息图场景专项增强,在文(小)字准确度、版式稳定性、图表数据正确性三个维度上均有显著提升——同时保持视觉理解能力不退化。

模型权重与训练代码现已开源。

能生成什么:从海报到学术论文页,都能做对

海报、图表、菜谱、明信片……,甚至 arXiv 风格的学术论文页——不只是美观好看,而且字和数据正确率极高。

1、高密度文字信息渲染

大量高密度、小字号文字的渲染,是信息图生成的一大难点。过去模型在密集文字段落、表格注释、脚注等这类小字场景容易「糊成一团」,列表信息编号也容易有错。SenseNova-U1-8B-MoT-Infographic 信息图增强版增强了对小字号密集文本的支持,通过专项数据训练与文字准确率强化学习(RL),显著提升了小字渲染的清晰度与正确率。

[MD:Title]

[MD:Title]

[MD:Title]

信息图增强版还支持 arXiv 风格的学术论文页面渲染,可轻松实现“单栏标题 + 双栏正文 + 脚注 + 页码 + 侧边 arXiv 水印”效果,密集小字都能保持清晰。

[MD:Title]

[MD:Title]

[MD:Title]

[MD:Title]

2、复杂图表生成能力

图表生成是信息图里最容易「翻车」的一类。「画一个柱状图」看似容易,但「画一个柱高、刻度、标签、图例全部对得上数据」非常难,这要求模型真正理解数据语义,而不是单纯模仿图表外观。

因此,复杂图表生成能力,特别是数据的正确性,也是信息图增强版提升的关键。依托SenseNova U1 统一架构具备的「先理解再生成」能力,信息图增强版进一步以图表类数据强化训练,帮助模型在生成前先把数据关系「想清楚」,最终能够做出柱高与数据一致,坐标轴刻度正确,年份月份与数值对应,百分比标注无误的信息图。甚至连箭头的标注都能准确指向正确的数据点。

[MD:Title]

[MD:Title]

[MD:Title]

[MD:Title]

3、设计版式美观与稳定性

准确性有了之后,如何提升信息图版式设计与美观性?主要难点在于结构稳定性。多模块、多列构成的信息图,容易出现模块挤压、对齐错乱、背景杂乱,表格交替底色与图标对应关系不稳等问题。信息图增强版通过版式合理性专项数据并延长中期训练(MT),让模型对网格结构、留白、层级有更稳定的把握。由此实现了元素层级清晰,背景更干净,美观度也得到极大提升。

[MD:Title]

[MD:Title]

[MD:Title]

[MD:Title]

4、丰富应用场景

高质量的信息图可以广泛应用在如产品讲解、UI界面设计、菜谱教程、角色卡牌、知识百科、教程讲解以及漫画、塔罗抽卡等场景。

产品介绍

[MD:Title]

[MD:Title]

[MD:Title]

[MD:Title]

食谱菜谱

[MD:Title]

[MD:Title]

游戏卡牌

[MD:Title]

[MD:Title]

百科教程

[MD:Title]

[MD:Title]

[MD:Title]

[MD:Title]

漫画创作

[MD:Title]

[MD:Title]

[MD:Title]

[MD:Title]

生成专项增强,不损失理解能力

相比普通图像,信息图生成是一项综合任务,需要文字准确、版式合理、图表正确等多个要素同时成立,其中任何一项出问题,整张图都会让人觉得不对劲。

对统一模型来说,还有一重额外挑战:专门强化生成能力,很容易让通用理解能力退化。SenseNova-U1-8B-MoT-Infographic 在 U1-8B-MoT 基础模型之上构建,用高质量数据延长了 MT 训练阶段、在 MT 与 SFT 阶段优化了理解与生成任务的数据配比、在 RL 阶段进一步打磨了奖励设计。

在采用相同prompt的对比中,信息图增强版相较于原版模型,在生成准确性、美观、版式、图表等各方面都得到显著提升,同时视觉理解能力基本保持,实现了「专项增强,但不牺牲通用能力」。

《儿童营养补充全指南:科学建议+产品选购要点》信息图:漫画风格设计,色彩鲜明,布局清晰合理,在每个板块里又细分为多个模块,图文并茂地呈现科学指导与实用建议。

[MD:Title]

原版

[MD:Title]

增强版

复古乡村风格2005-2020年Navajo-Churro 年度注册量柱状图:背景为深棕色皮革质感,搭配复古拖拉机插图。纵轴展示四个年份的注册数据,以 500 为增量,从 500 到 2500;横轴为年份 2005、2010、2015、2020;并有横向网格线贯穿图表背景,增强版柱状图上的数字都严格的和纵轴尺度对齐。

[MD:Title]

原版

[MD:Title]

增强版

用信息图分析古埃及神庙——科姆翁布神庙:进行全面的建筑与结构分析,采用手绘风格,背景为模拟砂岩或泥土质感的棕褐色调。

[MD:Title]

原版

[MD:Title]

增强版

评测结果也印证了这一点:在保持视觉理解能力的基础上,增强版在信息图相关基准上明显提升。

在BizGenEval模型能力评估中,围绕布局、属性、文字、知识四个维度,信息图增强版在 BizGenEval (Hard)上较原版提升 6.8 分,进一步拉开与同级别开源模型的差距。在IGenBench 的 Q-ACC(问答准确率)测试中,衡量信息图是否同时满足文本、图表、数据、结构要求时,增强版较原版提升18.2 分,成绩大幅跃升。

[MD:Title]

信息图难在要求模型,既要画得好看,又要把每一个字、每一根柱子、每一个箭头都画对。SenseNova-U1-8B-MoT-Infographic 在 8B 这一轻量规模上,把这件难事推进了一大步。

沿着这个方向,我们还将持续迭代不断拉进与顶级闭源模型距离,并在后续版本带来更稳定的表现。模型权重与代码现已开源,我们还同时开放了 SenseNova U1 系列模型训练代码。欢迎开发者下载、复现、共建——理解生成一体的模型还有更多值得探索的空间。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#快讯

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...