PFC风暴搞崩过多少万卡集群？这次直接换了套游戏规则聊个行业里的老痛点：大规模

PFC风暴搞崩过多少万卡集群？这次直接换了套游戏规则
聊个行业里的老痛点：大规模RDMA组网，最怕什么？PFC风暴。我猜做过大规模RDMA组网的朋友，应该都对这几个字都有心理阴影了。
PFC是IEEE标准，看着挺美，缓冲区满了就发个暂停帧，让上游别发了。听起来没毛病对吧？但在万卡级别集群里，一个倒霉的报文堵在队列头，引发一连串暂停帧层层上传，最后整张网像多米诺骨牌一样全崩了。这就是经典的“头阻”（HoL blocking）。搞过运维的兄弟应该都懂那种深夜被叫起来处理PFC风暴的痛，估计都想把交换机扔出窗外。
曙光这次在自研RDMA引擎里，压根没用PFC这套逻辑，直接换了一套玩法。基于信用的流控机制。不是发暂停帧，而是逐跳管信用。每个发送端维护接收端的“信用余额”，发一个包扣一分，接收端处理完返还一分。有信用才能发，没信用就等着。这从算法上就杜绝了头阻的可能性，根本不会出现一个暂停帧卡死全网的情况。
说白了，PFC是事后喊停，信用流控是事前预约，差的不只是一个机制，是设计哲学的本质不同。而且曙光还在此基础上改了IB协议，支持10万卡级别扩展，加了LLR机制让链路误码快速恢复。可以说，万卡集群掉链子的最大元凶，终于有人从硬件底层正面解决了。以后搞大规模AI集群，至少不用再提心吊胆地怕PFC风暴了。

YC科技资讯网

PFC风暴搞崩过多少万卡集群？这次直接换了套游戏规则聊个行业里的老痛点：大规模

热门分类

PFC风暴搞崩过多少万卡集群？这次直接换了套游戏规则 聊个行业里的老痛点：大规模

热门分类

PFC风暴搞崩过多少万卡集群？这次直接换了套游戏规则聊个行业里的老痛点：大规模