用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网科技动向科技前沿
关键字  范围   
 
从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛
来源:网易新闻 | 作者:平凡AI | 2026/2/7 12:26:48 | 浏览:5 | 评论:0

2026-01-17 18:19·海外·英国大学老师 优质互联网领域创作者

2025年开局非常热闹,特别是在大模型LLM的技术圈子里。DeepSeek团队是在新年当天以及过后没几天,接连发布了两篇梁文峰署名的论文。

《mHC:Manifold-Constrained Hyper-Connections》

《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》。

这两篇论文展示了DS对于模型架构稳定性和稀疏化记忆的新思考,总结下这两篇论文非常重磅的原因有两个:

它是对于现有Transformer结构的一次深刻讨论

有可能会对下一代大模型结构产生深远影响。

甚至被传为DeepSeek下一代大模型架构的理论基础,足以看出来这两项工作的重大意义。

有意思的是, 网友们在论文的参考文献里发现了另外一家国内公司的身影, 就是字节跳动的Seed团队。

01

mHC与字节Seed团队的Hyper-Connections

第一篇文章,mHC的封面图片,里面提到了模型架构的演化,从(a)最传统的residual connection残差到(c)mHC,其实并不是一蹴而就的,而是经历了HC这个中间结构。

从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛
而(b)这个Hype-Connections就是字节团队发表在计算机顶会ICLR上的文章,可以看到时间是在2025年的三月份。从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛


要理解 DeepSeek 在 2026 年的mHC,我们必须回看 2025 年,回顾Seed 团队在基础架构层面所做的突围尝试。

Transformer 架构已统治 NLP 领域多年,其核心的残差连接(Residual Connection)——即经典x + F(x)结构,虽然保证了深层网络的训练稳定性,但也逐渐显露出信息传输的瓶颈。

估计所有的超大模型团队都遇到了类似的困境,因为随着模型深度的加深,传统的residual connection就跟单车道的立交桥一样拥堵不堪。

字节 Seed 团队提出的 Hyper-Connections(HC)正是为了打破这一局限。HC 的核心思想可以类比为将 “单车道” 扩建为 “多车道高速公路”。

并且这个改动非常的大胆,

引用@https://www.zhihu.com/people/yu-you-56-63的话来说,字节Seed的这个HC可以划归为一类新的物种。从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛


这一突破性的范式由字节跳动率先提出,并在当时就展示了预训练收敛速度最高提升 80% 的潜力。尽管在发布之初,它可能未像某些应用层产品那样瞬间 “破圈”,但它在底层架构上埋下的伏笔,为后续的大模型架构改良提供了关键的理论基础。

基础领域的研究就是这样,提出一个好问题的难度要远比解决一个问题要难,因为前者是在大量的实践过程中才能发现的,而后者的作用也不可小觑,因为没有被大量验证过的理论才是大多数,最终的结局不过就是一篇paper。

从mHC这个工作来看,整体的思路非常的清晰,字节的Seed对于传统模型进行了大刀阔斧的改动,但留下的问题被DS解决,然后发表了mHC,但是这肯定不是终点,因为DS做的大规模试验也有限,未来肯定还会有其他团队沿袭这条新的路径不断探索,或许有一天会成为新的范式?很难说,毕竟是理论创新。从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛


02

Over-Encoding与DS的条件记忆

另外一篇“高调”出现在DS 论文中的字节研究是 Over-Encoding。 这项研究探讨了如何更高效地表达和存储信息,通过将高维特征拆解或重组,提升模型对细粒度知识的记忆能力。

它在当时更多被视为一种特征工程的理论探索,但其关于 “如何用有限参数承载更多信息” 的思考,实际上已经触及了后来 “记忆模块” 设计的核心命题。这一看似冷门的基础研究,实则为DS的 “条件记忆” 埋下了重要的理论伏笔。

下面这个图里面Over-Encoding分析了不同的N的准确度,N在1,2,3的情况都做了测试。从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛


然后再回过头来看DS的文章,它的核心组件Engram里面的框选不分,恰恰跟Over-Encoding的思维如出一辙。从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛


字节的这篇文章和HC一样,都是在25年的前半年发布的,做的试验也都是在较小的大模型上,性能不错,不过scale up,也就是大模型试验还没铺开。从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛


03

字节跳动AI基础研究的冰山一角

其实这里深入思考的话会得到一个很有意思的结论,那就是把DS这家直做理论创新的公司当作镜子,可以折射出字节跳动 AI 基础研究的冰山一角。

因为平时字节的基础研究很多时候都被豆包这个庞大大(可爱)物给遮蔽了,更多的形象来自于C端的产品。

但实际上,除了 HC 和 Over-Encoding 之外,字节 Seed 团队在很多方向上都做了长期、深入的布局。这些工作在自媒体上不算高频曝光,但在学术圈里是有真实影响力的。

把这些研究放在一起看,会发现它们不是零散的点:从稀疏性(UltraMem),到训练框架(veRL);从底层架构(FAN),到模态融合(Seed Diffusion),逐步拼出了一套相对完整的技术生态。DeepSeek 对其中两项工作的引用,也许只是两条技术路线在某个节点的一次交汇;而更多的平行探索仍在各自推进。从 DeepSeek 两篇开年论文,看 2026 AI:架构创新的接力赛


04

总结

最后简单总结:技术创新通常走两条腿——“理论突破”和“工程验证”。字节 Seed 团队在 HC 与 Over-Encoding 上的前瞻探索,为行业提供了一个清晰的参考坐标;DeepSeek 则凭借很强的工程执行力,把这些坐标转化成了可见的性能提升。这种引用与致敬,某种意义上说明中国 AI 技术生态正在变得更成熟:它减少了各自为战的隔离,让知识能在不同团队之间流动并产生增量。

不得不说,大厂的基础创新能力太强了,开辟新方向的速度甚至要比验证方向的速度还要快。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。

相关栏目:『科技前沿
谷歌深夜放王炸!AI自动生成SAT考题,一夜改变教育 2026-01-26 [295]
2026年,7个趋势正在爆发 2026-01-26 [555]
当 AI 转型失败时,代价将是巨大的— 而且不再只是“技术问题” 2026-01-22 [382]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断 2026-01-22 [508]
全球约13亿人在用AI,普及率爆炸式增长!微软官方报告 2026-01-22 [403]
4130 万篇论文洞察:AI 让科学家发文量暴涨 3 倍,却让科学路越走越窄 2026-01-22 [367]
2026:马斯克 3 小时 “狂言” 震撼全球:AI 超人类、医疗颠覆、货币失效,未来 10 年将重塑一切 2026-01-22 [743]
AI1小时破译500年“天书”:文科研究迎变革,人机协作如何共舞? 2026-01-10 [674]
AI催生“超级个体” “一人公司”成创新最小单元 2026-01-10 [783]
2026年拉斯维加斯消费电子展(CES)的5大趋势预测 2026-01-10 [871]
相关栏目更多文章
最新图文:
:引力波天文台或有助搜寻暗物质粒子 :Sail Through the Mist - SoCal Innovation Forum 2019(10/5) 游天龙:《唐人街》是如何炼成的:UCLA社会学教授周敏的学术之路 :“为什么海外华人那么爱国,但是让他回国却不愿意?...“ :学术出版巨头Elsevier 彻查433名审稿人“强迫引用”黑幕 :中国336个国家重点实验室布局 :中澳政府联合出手打击洗钱和逃税漏税 大量中国居民海外账户遭冻结 :摄影师苏唐诗与寂寞百年的故宫对话6年,3万张照片美伦美奂
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2026 ScholarsUpdate.com. All Rights Reserved.