YC科技资讯网

PFC风暴搞崩过多少万卡集群?这次直接换了套游戏规则 聊个行业里的老痛点:大规模

PFC风暴搞崩过多少万卡集群?这次直接换了套游戏规则
聊个行业里的老痛点:大规模RDMA组网,最怕什么?PFC风暴。我猜做过大规模RDMA组网的朋友,应该都对这几个字都有心理阴影了。
PFC是IEEE标准,看着挺美,缓冲区满了就发个暂停帧,让上游别发了。听起来没毛病对吧?但在万卡级别集群里,一个倒霉的报文堵在队列头,引发一连串暂停帧层层上传,最后整张网像多米诺骨牌一样全崩了。这就是经典的“头阻”(HoL blocking)。搞过运维的兄弟应该都懂那种深夜被叫起来处理PFC风暴的痛,估计都想把交换机扔出窗外。
曙光这次在自研RDMA引擎里,压根没用PFC这套逻辑,直接换了一套玩法。基于信用的流控机制。不是发暂停帧,而是逐跳管信用。每个发送端维护接收端的“信用余额”,发一个包扣一分,接收端处理完返还一分。有信用才能发,没信用就等着。这从算法上就杜绝了头阻的可能性,根本不会出现一个暂停帧卡死全网的情况。
说白了,PFC是事后喊停,信用流控是事前预约,差的不只是一个机制,是设计哲学的本质不同。而且曙光还在此基础上改了IB协议,支持10万卡级别扩展,加了LLR机制让链路误码快速恢复。可以说,万卡集群掉链子的最大元凶,终于有人从硬件底层正面解决了。以后搞大规模AI集群,至少不用再提心吊胆地怕PFC风暴了。