记录生活
分享美好

DeepSeek V4 要来了?代码库泄露 "MODEL1" 新架构,或将于春节发布

本文于 2026-01-25 15:01 更新,本站所发部分内容具有时效性,如有失效,请留言!

2026 年的 AI 圈开年大戏,似乎要由 DeepSeek(深度求索) 再次领衔主演。 就在这两天,敏锐的开发者在 DeepSeek 的 GitHub 开源库(FlashMLA)中发现了一些“不寻常”的代码提交,所有的线索都指向了一个神秘的新模型——代号 “MODEL1”

1. 代码库里的秘密:MODEL1 是什么?

根据 Reddit 和 Twitter 上技术大佬的挖掘,DeepSeek 团队在最近的 commit 中频繁引用了一个未发布的模型标识符。与现有的 V3/R1 不同,这个 “MODEL1” 展现出了全新的架构特征:

  • mHC(流形约束超连接): 这是一种全新的连接方式,旨在解决超大规模模型中的梯度传播问题。简单说,它能让模型变得更“聪明”且训练效率更高。
  • Engram 记忆机制: 泄露代码中出现了类似“生物记忆印痕”的模块,这可能意味着 DeepSeek V4 将拥有更强大的 长上下文记忆能力,甚至实现某种程度的“长期记忆”。

2. 性能预测:对标 GPT-5?

如果说 DeepSeek V3 是为了“把价格打下来”,那么 V4 很可能是为了“把性能顶上去”。 业界普遍猜测,V4 将全面适配 NVIDIA 最新的 Blackwell (B200) 显卡架构。在 FP8 精度下,其推理速度可能比 V3 再提升 40% 以上。 更重要的是,它极有可能是为了应对 OpenAI 迟迟未发的 GPT-5 而准备的“春节贺礼”。

3. 发布时间:春节见?

有消息称,DeepSeek 内部计划在 2026 年农历新年(2月中旬) 前后正式对外官宣。 对于我们普通用户来说,这意味着什么? 这意味着我们即将用到 逻辑更强、写代码更溜、且依然便宜(甚至免费) 的国产最强 AI。

心海锐评: 去年春节大家都在抢红包,今年春节可能大家都在抢着测试 DeepSeek V4 了。让我们拭目以待!

赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《DeepSeek V4 要来了?代码库泄露 "MODEL1" 新架构,或将于春节发布》
文章链接:https://www.lanxh.com/3276.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。部分内容来源于网络如有版权问题请联系删除:admin@lanxh.com

评论 抢沙发

评论前必须登录!

 

登录

找回密码

注册