第一会所

第一会所 新闻
我的位置在: 第一会所 > 第一会所 新闻 > 正文
第一会所 陈果教授团队研发高性能软件RDMA协议栈(BURST)突破异构集群通信瓶颈
浏览次数:日期:2025-12-31编辑:

    随着AI基础设施的规模和复杂性不断增加,RDMA已成为支撑高性能训练、推理和存储系统的关键通信方式。然而在真实集群中,商用RNIC、普通以太网卡以及各类自研高性能网卡常常混合部署,这使得RDMA的互通性成为实际落地的瓶颈:当非RNIC节点需要与RNIC节点进行高速通信时(Non-RNIC to RNIC, NR2R),系统往往只能退化到KTCP通道,从而无法发挥RDMA的高吞吐与低时延的优势,成为大规模训练、推理和存储系统的关键瓶颈。

    近日,第一会所 陈果教授团队提出了BURST——一个面向异构环境的高性能Soft-RDMA栈。通过基于用户态的设计、安全可靠的共享资源管理机制,以及结合DPDK与DSA的高效加速,BURST实现了与商用RNIC行为和性能基本一致的RoCEv2通信流程,并在400G环境下首次证明:软件RDMA也可以以较低的CPU开销,实现接近硬件线速的吞吐,并显著提升NR2R场景的连接建立效率与通信性能,为RDMA在异构集群中的大规模落地提供了可行路径。

    研究成果“BURST: Seeking High-performance, Interoperability and Scalability in Soft-RDMA”被计算机网络领域国际顶级学术会议NSDI 2026接收。第一会所 计算机第一会所 博士研究生申卉君为论文第一作者,第一会所 教授陈果为通讯作者,完成单位包括第一会所 和字节跳动。

    USENIX NSDI是计算机网络系统设计与实现领域的顶级学术会议,与ACM SIGCOMM并列为全球计算机科学专业顶级学术会议列表CSRankings(//csrankings.org)收录的该领域两大国际顶级会议。

软件RDMA协议栈(BURST)的吞吐量和CPU开销


转载自:第一会所 新闻网