26年春节又热闹了新论文暗示DeepSeek V4已完成训练--快科技--科技改变未来

正文内容 评论（0）

26年春节又热闹了新论文暗示DeepSeek V4已完成训练

2026-01-02 21:18:26 出处：快科技作者：宪瑞编辑：宪瑞评论(0)

复制

纠错

#DeepSeekV3 #DeepSeek

快科技1月2日消息，刚刚过去的2025年中，万众期待的DeepSeek全新大模型没有问世，但是DeepSeek并没有闲着，这一年中继续打磨了DeepSeek V3.X大模型，还发布了多项新技术。

2026年元旦假期，DeepSeek又发了一个新论文，提出了名为“流形约束超连接”(mHC)的框架，又一次引发了热议。

这篇论文非常专业，术语太多，普通人很难理解，感兴趣的网友可以从微博、知乎、公众号等渠道搜索专业人士的解读。

残差连接是字节公司的何恺明于2016年提出的一种深度学习技术，十年来这个技术领域成为AI大模型研究的一个突破点，2024年业界提出了HC（Hyper-Connections）超连接的概念，但HC的问题在于累积多了就不稳定了。

DeepSeek新论文中提到，他们以27B参数的模型训练为例，HC在大约1200步时就会损失激增，放大倍数峰值达到了3000，训练要崩溃了，没法持续下去。

他们提出的mHC技术就是解决这个问题的，控制总量不变，理论上将放大倍数控制在了1，实际能做到了大约1.6，相比3000倍的放大倍数极大地降低了，能让训练全程稳定。

DeepSeek也在论文中公布了mHC技术的效果，在 27B 参数模型的测试中，mHC训练时间仅增加6.7%，但复杂推理任务从 43.8%提升到了51.0%，阅读理解任务从47.0% 提升到 53.9%。

用普通人能理解的方法来解释，残差连接是开辟了一条AI大模型的新型高速公路，HC技术提高了车道数，但会车速越快越容易失控，DeepSeek的mHC相当于装了红绿灯，确保高速的同时也不失控。

更值得关注的是，在这个论文中DeepSeek提到他们在mHC技术研究的结论已经得到了内部大规模实验的进一步证实。

这一句话暗示DeepSeek已经完成了新一代基座大模型DeepSeek V4的训练，虽然这事本身已经不是什么新闻，现在大家最关心的是DeepSeek V4什么时候发布。

参考去年DeepSeek R1的节点，DeepSeek V4应该会在春节期间发布，也就是2月初，这也是很多网友期待的时间点，年度大餐就指望它了。

更关键的则是DeepSeek V4会带来多大的影响，去年的DeepSeek V3/R1一举让开源大模型登顶，意义是非凡的，今年的DeepSeek V4也需要有这样的创举才行。

DeepSeek V4可以确定的是会支持FP8算子，会支持国产AI芯片训练，应该会是多模态的。

最后，此前传闻以后不会有DeepSeek R2这种推理大模型了，但是考虑到当前的形势，一切都不好说，DeepSeek也可以针对现实将大模型分为两个方向，V4专攻通用市场，R2做Claude这样的专用大模型，在编程上给业界带来一点震撼。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：宪瑞

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#DeepSeekV3 #DeepSeek #DeepSeek-V3.1

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波