正文内容 评论(0)
信息图(infographic)是 AI 图像生成领域公认最难的场景——它要求模型同时做到:文字写准、版式排美、图表画清晰,缺一不可。
商汤日日新SenseNova-U1-8B-MoT-Infographic (信息图增强版),在原生统一模型 SenseNova-U1-8B-MoT 基础上,针对信息图场景专项增强,在文(小)字准确度、版式稳定性、图表数据正确性三个维度上均有显著提升——同时保持视觉理解能力不退化。
模型权重与训练代码现已开源。
能生成什么:从海报到学术论文页,都能做对
海报、图表、菜谱、明信片……,甚至 arXiv 风格的学术论文页——不只是美观好看,而且字和数据正确率极高。
1、高密度文字信息渲染
大量高密度、小字号文字的渲染,是信息图生成的一大难点。过去模型在密集文字段落、表格注释、脚注等这类小字场景容易「糊成一团」,列表信息编号也容易有错。SenseNova-U1-8B-MoT-Infographic 信息图增强版增强了对小字号密集文本的支持,通过专项数据训练与文字准确率强化学习(RL),显著提升了小字渲染的清晰度与正确率。
![[MD:Title]](http://img1.mydrivers.com/img/20260529/666858f9-a9b9-4bb3-acab-de9fe575918a.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/ffdd150c-3758-4925-b08a-7b8298e21c6e.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/4d5de2d5-b8e2-4ff2-8de1-4122faa7f489.jpg)
信息图增强版还支持 arXiv 风格的学术论文页面渲染,可轻松实现“单栏标题 + 双栏正文 + 脚注 + 页码 + 侧边 arXiv 水印”效果,密集小字都能保持清晰。
![[MD:Title]](http://img1.mydrivers.com/img/20260529/0ffd5cf0-f0b2-4e1a-82dc-eccbbe836266.png)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/b80481c3-85a8-488f-befe-bae904f871fa.png)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/3e3075e7-863c-456d-ba2b-5063efcdd7f8.png)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/37594c8a-3734-4d84-a653-fe6a77c58754.png)
2、复杂图表生成能力
图表生成是信息图里最容易「翻车」的一类。「画一个柱状图」看似容易,但「画一个柱高、刻度、标签、图例全部对得上数据」非常难,这要求模型真正理解数据语义,而不是单纯模仿图表外观。
因此,复杂图表生成能力,特别是数据的正确性,也是信息图增强版提升的关键。依托SenseNova U1 统一架构具备的「先理解再生成」能力,信息图增强版进一步以图表类数据强化训练,帮助模型在生成前先把数据关系「想清楚」,最终能够做出柱高与数据一致,坐标轴刻度正确,年份月份与数值对应,百分比标注无误的信息图。甚至连箭头的标注都能准确指向正确的数据点。
![[MD:Title]](http://img1.mydrivers.com/img/20260529/d6dbf025-fa0c-4a8e-9907-ec25e4b274d0.png)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/0d5847fb-12ec-49b6-98de-007e495e45ac.png)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/086f2cba-b3f5-47ca-b3bd-c5ec4f6f1182.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/5e1d0a85-738a-459b-b61d-db959fc32db3.png)
3、设计版式美观与稳定性
准确性有了之后,如何提升信息图版式设计与美观性?主要难点在于结构稳定性。多模块、多列构成的信息图,容易出现模块挤压、对齐错乱、背景杂乱,表格交替底色与图标对应关系不稳等问题。信息图增强版通过版式合理性专项数据并延长中期训练(MT),让模型对网格结构、留白、层级有更稳定的把握。由此实现了元素层级清晰,背景更干净,美观度也得到极大提升。
![[MD:Title]](http://img1.mydrivers.com/img/20260529/9bc0e4a3-8e42-427b-8ee1-febf7cb5d006.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/af94da6c-4045-49c3-ae13-5a21bea32508.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/c0d78c7e-2c10-4917-839f-a8cb89777cf1.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/14c13ec6-03e3-4a49-8335-d5611f38b227.jpg)
4、丰富应用场景
高质量的信息图可以广泛应用在如产品讲解、UI界面设计、菜谱教程、角色卡牌、知识百科、教程讲解以及漫画、塔罗抽卡等场景。
产品介绍
![[MD:Title]](http://img1.mydrivers.com/img/20260529/c08e1ef9-aaf1-4760-9e40-8ba34c50a8a8.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/e3ea557f-529e-45e4-baa1-04b5c67b86ff.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/6084e139-86c1-4cec-a1a3-a651fa9d7f44.png)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/860c81f5-ed53-46c9-82f4-26511e62364b.jpg)
食谱菜谱
![[MD:Title]](http://img1.mydrivers.com/img/20260529/227adaf5-1389-419a-9f26-53e99fcfa058.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/929981d1-a51f-450a-819f-ec3a82ef11ed.jpg)
游戏卡牌
![[MD:Title]](http://img1.mydrivers.com/img/20260529/df0f71a0-cb50-42d1-8fe0-dda67ae80efc.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/b433015e-aedc-4cc7-8cfc-d31401482271.jpg)
百科教程
![[MD:Title]](http://img1.mydrivers.com/img/20260529/dd0fd1eb-1cc7-44a7-a5f1-7d55b35edcf5.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/1dc36568-ad43-49cf-8c42-e0f7ab791ccc.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/df95fb08-32b2-4740-82b2-d465baebb930.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/d4254db5-e762-412b-82af-4f33e8aa4bd2.jpg)
漫画创作
![[MD:Title]](http://img1.mydrivers.com/img/20260529/0ffb86bc-c530-4d6a-ad1f-876ef8d3da22.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/ecac7e4f-628e-4a73-8245-299b0f61e2ac.png)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/e9e1ba16-d1eb-487b-a063-460803cddb4d.png)
![[MD:Title]](http://img1.mydrivers.com/img/20260529/62b91749-24eb-4c8f-b4af-df5309736838.png)
生成专项增强,不损失理解能力
相比普通图像,信息图生成是一项综合任务,需要文字准确、版式合理、图表正确等多个要素同时成立,其中任何一项出问题,整张图都会让人觉得不对劲。
对统一模型来说,还有一重额外挑战:专门强化生成能力,很容易让通用理解能力退化。SenseNova-U1-8B-MoT-Infographic 在 U1-8B-MoT 基础模型之上构建,用高质量数据延长了 MT 训练阶段、在 MT 与 SFT 阶段优化了理解与生成任务的数据配比、在 RL 阶段进一步打磨了奖励设计。
在采用相同prompt的对比中,信息图增强版相较于原版模型,在生成准确性、美观、版式、图表等各方面都得到显著提升,同时视觉理解能力基本保持,实现了「专项增强,但不牺牲通用能力」。
《儿童营养补充全指南:科学建议+产品选购要点》信息图:漫画风格设计,色彩鲜明,布局清晰合理,在每个板块里又细分为多个模块,图文并茂地呈现科学指导与实用建议。
![[MD:Title]](http://img1.mydrivers.com/img/20260529/8e269ffa-5a9f-4b22-b90a-35cc25357f5b.jpg)
原版
![[MD:Title]](http://img1.mydrivers.com/img/20260529/10c55fd9-e34a-4c59-8ddc-9d05c847e8b2.jpg)
增强版
复古乡村风格2005-2020年Navajo-Churro 年度注册量柱状图:背景为深棕色皮革质感,搭配复古拖拉机插图。纵轴展示四个年份的注册数据,以 500 为增量,从 500 到 2500;横轴为年份 2005、2010、2015、2020;并有横向网格线贯穿图表背景,增强版柱状图上的数字都严格的和纵轴尺度对齐。
![[MD:Title]](http://img1.mydrivers.com/img/20260529/f2526622-4ebd-481d-a9ec-9e62f05394a4.png)
原版
![[MD:Title]](http://img1.mydrivers.com/img/20260529/a0b01221-1432-4eb4-8a1f-2ee389568d3c.png)
增强版
用信息图分析古埃及神庙——科姆翁布神庙:进行全面的建筑与结构分析,采用手绘风格,背景为模拟砂岩或泥土质感的棕褐色调。
![[MD:Title]](http://img1.mydrivers.com/img/20260529/a9419845-dde0-4c75-a9f2-98413b65b721.jpg)
原版
![[MD:Title]](http://img1.mydrivers.com/img/20260529/ca816784-cc7d-406d-be6f-4d1b2f7c2325.jpg)
增强版
评测结果也印证了这一点:在保持视觉理解能力的基础上,增强版在信息图相关基准上明显提升。
在BizGenEval模型能力评估中,围绕布局、属性、文字、知识四个维度,信息图增强版在 BizGenEval (Hard)上较原版提升 6.8 分,进一步拉开与同级别开源模型的差距。在IGenBench 的 Q-ACC(问答准确率)测试中,衡量信息图是否同时满足文本、图表、数据、结构要求时,增强版较原版提升18.2 分,成绩大幅跃升。
![[MD:Title]](http://img1.mydrivers.com/img/20260529/7bcf4536-f8b3-4ed3-b5ed-e806593567e2.png)
信息图难在要求模型,既要画得好看,又要把每一个字、每一根柱子、每一个箭头都画对。SenseNova-U1-8B-MoT-Infographic 在 8B 这一轻量规模上,把这件难事推进了一大步。
沿着这个方向,我们还将持续迭代不断拉进与顶级闭源模型距离,并在后续版本带来更稳定的表现。模型权重与代码现已开源,我们还同时开放了 SenseNova U1 系列模型训练代码。欢迎开发者下载、复现、共建——理解生成一体的模型还有更多值得探索的空间。
本文收录在
#快讯
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...
