YC科技资讯网

看到了原始论文资料华为半导体领域新突破 让Claude解读下何庭波上台做了个主旨

看到了原始论文资料华为半导体领域新突破 让Claude解读下

何庭波上台做了个主旨演讲,题目叫「半导体新路径探索与实践」,然后正式发布了一个叫「韬定律」的东西。同时在ChinaXiv预印本平台上挂了完整论文。我把论文和PPT都看了一遍,觉得这件事值得认真聊。⠀📮先说背景。过去五十多年全球半导体行业靠的是摩尔定律——晶体管尺寸不断缩小,密度每两年翻一倍,性能跟着涨、成本跟着降。这条路走了半个世纪,现在到了3纳米、2纳米这个区间,物理极限开始顶头了。量子隧穿导致漏电功耗飙升,一座3纳米晶圆厂建厂成本200亿美元起步,全球能玩这个游戏的厂商缩到了三四家。更要命的是,到了最先进的制程节点,每颗晶体管的成本不再下降,有些甚至在涨——摩尔定律赖以成立的那个经济模型已经不成立了。⠀何庭波在论文里写了一句话我觉得特别准确——「The central question for the industry has therefore changed. It is no longer how much further can the transistor shrink? It is what should be scaled, and against what objective?」行业的核心问题变了,不再是晶体管还能缩多小,而是到底该缩什么、朝什么目标缩。⠀华为被制裁之后EUV光刻机买不到,7纳米以下的先进制程走不了。这不是秘密。所以华为这六年一直在想一件事——如果没办法把晶体管做得更小,有没有别的办法让芯片跑得更快?⠀📮韬定律给的答案是:有。不缩小尺寸,缩短时间。⠀具体说就是,传统摩尔定律的思路是「几何缩微」——把晶体管做小,单位面积塞更多晶体管。韬定律的思路是「时间缩微」——不死磕晶体管尺寸,而是系统性地压缩信号在芯片里的传播时间。何庭波提了一个核心公式,τ = f(τ_transistor, τ_circuit, τ_chip, τ_system),也就是说时间常数τ是从器件层、电路层、芯片层到系统层每一层累加的。你在任何一层压缩了时间,整体性能就上去了。⠀论文里说得更直白——回头看摩尔定律这五十年,它真正给用户带来的从来不是「更小的晶体管」,而是「更快的响应」。晶体管变小→开关更快→信号跑得更短→系统延迟更低。空间缩微只是压缩时间的手段。既然手段碰壁了,那就直接把时间本身作为优化目标。⠀📮实现这个目标的核心技术叫LogicFolding,逻辑折叠。⠀论文和PPT里讲得很清楚。传统芯片设计是把所有逻辑电路铺在一个平面上,信号从这头跑到那头,线越长延迟越大。LogicFolding是把关键路径上的逻辑电路垂直折叠成两层甚至更多层,通过超细间距的混合键合(Hybrid Bonding)把上下两层当成一块连续的布线空间来设计。信号走的物理距离短了,寄生RC降了,时钟频率就上去了。⠀PPT第5页那张LogicFolding的概念图特别直观——原来一条水平的时序逻辑链(FF→组合逻辑→FF),现在折叠成垂直方向,两个寄存器上下叠在一起,中间的组合逻辑通过垂直互连完成。关键路径的物理距离直接缩短了一个数量级。⠀PPT第4页给了Kirin 2026的实测数据,这些数字是论文里确认过的——⠀晶体管密度从155 MTr/mm²跳到238 MTr/mm²,单代提升53.5%。这个幅度过去需要三年的几何缩微才能做到。性能核能效提升41%,最高频率提升12.7%,回到3.1GHz。SRAM工作频率提升40%以上。时钟缓冲器数量减少50%,时钟偏差减少25%,线长减少30%。⠀这些全部是在制程不变的情况下做到的。不是靠新的光刻步骤,是靠把逻辑在三维空间里重新排列。⠀论文还给了一张路线图——Kirin 2026今年3.1GHz,2027年3.39GHz,2028年3.71GHz,2029年到4GHz。全部基于LogicFolding的持续演进,不需要换制程。到2031年晶体管密度向400+ MTr/mm²迈进,达到1.4纳米制程的同等水平。⠀📮但韬定律不只是手机芯片的事。论文后半部分讲的是AI系统,这部分我觉得比LogicFolding更有想象力。⠀何庭波提了一个问题——2.5D封装为什么会碰壁?她给了一个很漂亮的分析:在传统2.5D芯片里,逻辑Die在中间,HBM内存堆在边上,SerDes也在边上,供电从四周进来。计算能力按面积增长,是N²。但内存带宽、互连带宽、供电能力全部走边缘,按周长增长,是N。N²对N,计算越来越快但数据喂不进去,这就是扇出困境(Fan-out Dilemma)。⠀这个困境靠缩小制程解决不了。你把晶体管做到1纳米,边缘带宽还是N。唯一的办法是3D Folding——把原来挤在边缘的内存、光互连、供电全部搬到芯片的表面上,让它们也按N²增长。PPT第6页的昇腾路线图就是这个思路的落地:Ascend 910C(2025)→Ascend 950(2026)→960(2027)→970(2028)→980(2029),SuperPOD规模100到10000颗芯片,单Die面积超过800mm²,功耗做到GW级。⠀配合3D Folding的还有两个系统级技术。Unified Bus——统一总线,把传统AI集群里PCIe、NVLink、以太网、InfiniBand这堆协议栈全部换成一个协议,端到端远程访问延迟从数十微秒降到大约100纳秒,差不多500倍。Hi-ONE——近封装光引擎,单模块8Tb/s带宽,把SerDes的到达距离从100厘米缩到5厘米,再用光纤把芯片间距离从1米拉到100米。这两个技术加起来,让一个多机柜的AI集群在系统层面表现得像一颗芯片。⠀论文里的原话是:「A multi-rack AI cluster can behave as a single coherent machine.」何庭波内部给这个状态起了个名字叫System-as-One-Chip。到2035年硬件集成度预计提升100倍以上。⠀📮我看完论文和PPT之后的几个判断。⠀第一,这不是PPT学。381款量产芯片、Kirin 2026的实测数据、昇腾从910C到980的五代路线图——这些都是真的在出货或者已经在硅片上验证过的东西。何庭波在论文最后一段写了一句话:「This perspective is intended as both a report from the field and an invitation.」这是来自产线的报告,不是实验室的论文。⠀第二,韬定律真正厉害的地方不是LogicFolding本身,是它给了整个产业链一个共同的优化目标。过去工艺工程师优化晶体管尺寸,电路设计师优化时序,架构师优化流水线,系统工程师优化互连——每一层各管各的,最后拼出来的系统性能是个「残差」。韬定律说的是,所有人都应该在优化同一个东西——τ,时间常数。工艺、电路、芯片、系统四层用同一个单位(皮秒到秒)衡量进步。这是Dennard定律之后第一次有人给全栈提出一个统一的优化目标。⠀第三,N²对N的扇出困境那段分析,是我在论文里看到的最有价值的洞察。它解释了为什么靠缩小制程已经不够了——不是因为物理极限(虽然确实有极限),是因为拓扑结构就不对。你把Die面积做大、算力按N²涨,但数据从边缘进来只能按N涨,这个缺口是结构性的。3D Folding把边缘搬到表面是唯一的数学解。这个论证本身就值得单独写一篇文章。⠀当然也要冷静看。论文最后一节Open Challenges里自己列了好几个没解决的问题——EDA工具链还没跟上(现有EDA是为2D设计时代做的),层间工艺偏差需要新的时序签核流程,能量问题(τ缩短了但功耗可能上去),还有行业缺少针对τ的标准benchmark。这些都不是小问题。⠀何庭波今天说了一句话——「我们取得了一系列仅靠先进制程工艺难以取得的进步。」这句话翻译过来就是,我不是因为买不到EUV才走这条路的,是走了这条路之后发现,有些东西你光靠缩小制程反而做不到。⠀至于这话是不是自信过头了,秋天那颗Kirin 2026出来就知道了。3.1GHz、238 MTr/mm²、能效+41%——这几个数字如果手机端跑分实测能兑现,那韬定律就不只是一篇论文,是一条新赛道的起跑线。