豆包大模型全面升级：语言模型提升20.3% 图像、语音再进阶--快科技--科技改变未来

正文内容 评论（0）

豆包大模型全面升级：语言模型提升20.3% 图像、语音再进阶

2024-08-30 11:34:20 作者：cici 编辑：cici 评论(0)

#快讯

在近日举办的火山引擎AI创新巡展上海站活动中，火山引擎谭待对外表示，相比于5月15日正式发布的版本，豆包语言模型在3个月内，整体综合能力提升了20.3%。

谭待表示，这意味着豆包大模型可以在越来越多的生产力环节中得到应用，在企业服务中更具竞争力。

具体来说，角色扮演能力提升了38.3%，语言理解方面提升33.3%，同时在长文任务，以及数学、专业知识、代码能力等方面也都有不同程度增强。

在图像创作方面，豆包大模型对“文生图模型”进行了升级迭代。新的模型在长文本图文匹配能力方面表现得更加精准，使用户通过文字描述，就可以对图片生成提出更精确的需求。

另外，对于多主体、多位置、人物手部结构等复杂问题，新模型均有大幅提升。新的文生图模型对于中国风格的人物、物品、艺术风格都有着更深理解，未来在设计、广告、营销、电商等多领域，都可以帮助企业解决更多实际问题。

语音模型方面，语义识别准确性进行了相关升级。

对此，谭待在现场举例加以说明。他表示，自2022年冬奥会后，越来越多的人开始喜欢滑雪运动，但在滑雪运动领域中，存在非常多专业的术语，如立刃、搓雪等等，在以往，模型对此很难识别。

但是现在，通过更加精准的上下文理解，人们在讲滑雪相关话题时，模型就可以更好地加以理解。

谭待认为，语音大模型的进一步演进，是实现AI与人之间实时流畅的对话，即在对话中，人可以像与其他人对话一样，去随机打断AI、纠正AI，甚至与AI争辩，而不是像回合制游戏一样，你说一句，我说一句。

[MD:Title]

对此，火山引擎将大模型与实时音频技术（RTC）相结合，从而能够提供端到端的大模型实时对话能力，企业可以在自身的AI应用中具体应用这一实时语音功能，让用户真正做到和模型非常直接、自由的对话。

通过视频Demo，谭待还在现场具体演示了大模型实时对话能力。他表示，通过将大模型与RTC结合，人与AI之间实现了更加自然的对话，首先是对话可以随时插话、打断，实现了如同真人之间的对话效果。

同时，在以上的前提下，AI声音仍然具备很好的表现力和情感色彩，让用户体验到与真人交流的感觉，并且AI也更加“懂”用户。

最后，通过大模型推理与RTC端到端优化的叠加，火山引擎已经可以将这种人机对话的延迟做到1秒以内，即使在网络环境很差，可能80%丢包的情况下，仍然可以保持非常清晰、流畅的通话质量。

谭待表示，相信这样的新技术，可以让AI时代的人机交互，上升到一个新的高度。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：梦佳

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#快讯

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波