国产大模型战事升维万兴科技发布音视频多媒体大模型 --快科技--科技改变未来

正文内容 评论（0）

国产大模型战事升维万兴科技发布音视频多媒体大模型

2024-02-04 14:32:00 作者：cici 编辑：cici 评论(0)

中国大模型的发展史,正在划出一条新的分界线。

近期,在长沙马栏山举办的一场关于多媒体大模型创新应用发展的论坛上,万兴科技副总裁朱伟现场演示了正式发布的万兴天幕音视频多媒体大模型(以下简称“天幕”大模型)文生主题视频功能。通过输入文字脚本,用时约3分钟便自动生成一个拥有指定风格、音乐、画面的“太空探索”主题视频。

尽管此前已有Pika、Runway等AI工具平台问世,但主流大模型的发展在单一模态的停滞,让见证了“百模大战”的人们对于大模型的新鲜感直线消退,同质化大模型的问世似乎很难再掀起太大水花。

此次万兴科技演示的短短10S的文生主题视频,从大模型发展角度,它打破了原来单一模态AI生成的格局,使文字、音频、图片、视频的AI生成有机结合,某种程度上具有划时代的意义。

这也意味着,国内大模型的技术重心正在转移,落地竞赛已悄然进入下一个阶段:从图文向视频升维,加速进入以音视频多媒体为载体的2.0时代。

“天幕”的冰山之下

“未来的时代,一定是人人都是设计师的时代。”万兴科技董事长吴太兵在主题演讲中提出,设计能力的民主化是大势所趋,人们最初用纸笔做设计,数月才能产出一张图纸,但在AIGC赋能下,几秒钟就能生成一张精美的设计图,几分钟就能制作一个特定的主题视频,人人都能成为新一代的艺术家。

[MD:Title]
万兴科技董事长吴太兵发表主题演讲

长远来看,所有数字内容生态在向着更高效、更智能、更高级的信息载体方向进化,音视频的创作门槛必然降低,创作边界也将极大拓展。但短期而言,当前大模型在音视频领域的应用仍存在不少客观挑战。

看似简单的视频制作流程,从数字化视角而言实际上十分复杂,包含了由动画、字幕、音乐、特效、美化、转场、粒子、画中画等诸多能力和元素。同时,视频制作的链路与技术门槛非常高,需要构思内容、获取资源、生成效果,还需要算力、做编解码,每一个都包括了600+个内容品类,100+个每帧画元素,200项新技术融合,1s=9.7亿次浮点运算。

这也就解释了,为何此前国内抢先发布的大多是偏向图文的大模型,以音视频为主的多媒体大模型往往缺位。

如今,为赋能音视频创作而生的万兴“天幕”填补了这一空缺。

发布会上,万兴科技首次对外展示了“天幕”大模型所拥有的多个原子能力。除前文提到的 “文生主题视频”,“天幕”大模型的“文生3D视频”能力还支持极高自由度的3D场景生成,“文生音乐”可以解析用户输入的描述词生成相关标签的音乐,“视频AI配乐”能够根据视频内容生成匹配的音乐,“数字人播报”仅需普通手机即可操作,不但支持全球主流语种,而且人像真实度、口型准确度等优势明显,多指标数据表现远超行业平均水平。

[MD:Title]
“天幕”大模型原子能力展示

实际上,此前万兴科技陆续发布的《人生四季》《迷失上海》《腊八粥里的江湖》等AI短片已经从侧面透露出“天幕”在角色形象转化、场景构建、情绪表达等方面的多维度生成能力。

时至当前,“天幕”大模型正式揭开面纱,其“冰山之下”的丰富原子能力得以全面对外显露,有望在各行业释放革新势能。

“多媒体、垂类应用、本土化”大模型2.0时代启幕

万兴科技在数字创意这片蓝海中航行已久。自2003年推出第一款照片+音乐+特效的VCD制作软件Photo2VCD并迅速风靡海外以来,万兴科技便深度布局数字创意软件赛道,聚焦关乎数字创意方方面面的应用开发,着力为全球视频创作者打造更高效好用的工具。20年的力耕不辍,使该公司一步步搭建起完整的数字创意产品矩阵。

对于万兴科技而言,推出多媒体大模型,更像是在AIGC时代背景下以前沿技术赋能全球创作者的必然结果。换句话说,万兴“天幕”的诞生,并非“为了大模型而大模型”,本质上是万兴科技在音视频创意需求驱动下展开的一次大模型技术升维。

但从宏观视角出发,这次技术升维实际承载着更深刻的里程碑意义:如同一个激荡的注脚,标志着中国正提速迈向大模型2.0时代。

在吴太兵看来,大模型1.0时代向2.0时代的跨越,至少将展现出三大特征:从多模态转向多媒体、从通用转向垂直解决方案、从全球化转向本土化。

他提出,大模型1.0时代所指的“多模态”强调通用性,希望通过一套东西把文本、视频、音频、图片全部打通,也许有可能,但随着应用需求从文本升级为音视频,主流文本+跨模态生成的内容体验还远远不够。因此,从多模态大模型发展到多媒体大模型,系统性解决不同模态融合的问题,将成为大模型2.0时代的一个重要特征。

吴太兵比喻,在大模型1.0时代,通用大模型占主流,这时通用大模型的角色就像“科学家”,主要研究前沿高端,解决基础理论性问题。来到2.0时代,将轮到垂直大模型唱主角,垂直大模型好比“工匠”,可以在细分领域专职、专业、高效地解决问题。从“横向的通用模型”到“纵向的垂类应用模型”,是大模型2.0时代的第二个特征。

此外,考虑到全世界算力的争夺、数据采集的质量等问题,吴太兵判断大模型2.0时代还将从全球化走向本土化,“过去指望一个大模型解决全世界的问题,现在而言,应用层面大家越来越不这么认为了,需要算力本地布局,需要更本土化的数据,需要更本土化的应用。”

基于对大模型2.0时代三个特征的预判,“天幕”大模型也锁定了“多媒体、应用垂类、本土化”的三大发展方向。接下来,万兴科技将持续打造基于大模型架构的AIGC应用基础底座,全链路赋能全球创作者。

数字创意产业+大模型“奇点将至”

“未来的方向是‘大模型+,还是+大模型’?”当大模型发展从技术积累行进到应用兑现的关键路口,类似20年前“互联网+还是+互联网”的议题再次重演。

究竟应该是大模型驱动行业变革,还是行业按需推动大模型应用?

实际上,无论是大模型+还是+大模型,在行业知识经验与技术的结合下,颠覆性的数字革命总会加速酝酿,千行百业最终都将从中获益。目前可以确认的是,大模型已率先在数字创意领域落脚,通过赋能剧本创作、美术设计、特效制作、后期剪辑、海报绘制、电影修复等内容生产工作,频频碰撞出新的火花。

Gartner曾预测,到2030年,90%的数字内容都将由AI生成。这一预测所指向的未来,是几秒内生成一张高质量AI电影海报;是曾经需要数百名工作人员配合数月才能实现的影视制作,能够在AI赋能下实现质变级的降本增效;更重要的是,届时数字创意产业将迈过“奇点”,全球绝大多数普通人都能轻松使用AIGC产品进行内容创作,随时让头脑中的创意灵感更精准地落在数字化的内容载体之中。

去年10月,依托“天幕”大模型能力,万兴科技在视频创意软件Wondershare Filmora上线了智能剪辑助手、AI文字快剪等AI功能,随后用户使用量迅速出现了高幅度增长。朱伟对此感触颇深,“普通用户尤其是创作者用户,他们对大模型也许并不在意,但如果大模型解决了创作的问题,更高效高质量地实现了价值,用户就会非常在意和认可。”

[MD:Title]
Wondershare Filmora视频案例展示截图

如今,万兴“天幕”大模型能力已经在万兴科技旗下多款产品中应用,如AI讲演神器万兴智演、AI虚拟伴侣产品Trumate、AI电商图片生成工具Wondershare VirtuLook、在线图像音视频轻编辑AI创意平台Wondershare Media.io等,同时万兴爱画、万兴播爆、万兴智演、Wondershare Kwicut、Wondershare VirtuLook等AIGC创意新品也在持续赋能全球创作者。

“天幕”大模型命名的背后含义是“以天为幕”,意指天有多大,施展创意的舞台就有多大。向前瞭望,数字创意产业在多媒体大模型能力的加持下,想象空间打开,下一个奇点将至。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：