网络研究院师生在SIGCOMM 2025发表多篇第一作者论文


       计算机网络领域旗舰会议SIGCOMM 2025于9月8日-11日在葡萄牙科英布拉举行,网络研究院师生及毕业生共发表9篇第一作者论文(8篇长文+1篇短文),分别是:

(1) LeoCC: Making Internet Congestion Control Robust to LEO Satellite Dynamics

(2) Achieving High-Speed and Robust Encrypted Traffic Anomaly Detection with Programmable Switches

(3) Hawkeye: Diagnosing RDMA Network Performance Anomalies with PFC Provenance

(4) Small-scale LEO Satellite Networking for Global-scale Demands

(5) Direct-to-Cell Satellite Network without Satellite Navigation

(6) Low-Overhead Distributed Application Observation with DeepTrace: Achieving Accurate Tracing in Production Systems

(7) (毕业生) SyCCL: Exploiting Symmetry for Efficient Collective Communication Scheduling

(8) (毕业生) Fornax: A Hardware-Centric Session Management in Large Public Cloud Network

(9) (毕业生) PreTE: Traffic Engineering with Predictive Failures

网络研究院师生第一作者论文

9月9日Measurements Session

论文简介

       近年来,低轨卫星网络的飞速发展极大拓展了全球互联网的边界,但也给互联网拥塞控制带来了全新挑战:现有端到端拥塞算法无法有效辨别由于卫星移动和网络拥塞导致的时延、丢包率变化,频繁引发拥塞误判,导致性能受限。针对这一问题,本文提出了LeoCC (LEO Network Congestion Control),一种基于卫星路径重构感知的新型拥塞控制算法。LeoCC通过带外探测感知卫星路径重构信息,过滤卫星移动导致的时延与丢包变化,建立瓶颈链路时变模型并准确调控发送速率。实网试验表明,在真实低轨卫星网络环境下,LeoCC相比于Cubic,Copa,BBRv3可提升至多253%,494%,85%的平均吞吐量。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750491

9月9日Shorts Session

论文简介

       随着应用规模的快速扩张,连接到互联网服务提供商ISP网络的数据中心数量持续增长,ISP需要给这些站点提供安全防护服务。然而,面对高速加密的网络流量,现有的网络入侵检测系统在检测效果和处理效率方面存在明显不足。针对这一挑战,设计并实现了Mazu,一种基于可编程交换机的高速网络加密恶意流量检测系统,专门用于保护接入ISP网络的数据中心的安全。Mazu提出了一种双平面特征提取模型,能够以接近线速的方式针对加密流量进行画像;同时Mazu仅基于正常流量训练最优参数以识别恶意流量。此外,Mazu还引入了在线更新机制,能够根据环境变化动态调整检测模型。该系统已在生产环境中部署两年并进行测试,为两家ISP保护超过100万台服务器,期间成功识别出10余起重大攻击事件。生产环境和测试床评估表明,Mazu能够在数分钟内以约90%的准确率检测出进入数据中心的恶意攻击行为。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750493

9月9日Shorts Session

论文简介

       RDMA凭借其显著的性能优势,正从私有数据中心日益普及到公有多租户云环境。然而,其无损流量控制(PFC)因其级联式拥塞扩散特性,在网络性能异常方面引入了新的复杂性。这导致了应用流量的性能下降,且已有研究难以有效诊断RDMA网络性能异常的根因。本文提出了Hawkeye,一个基于PFC溯源、精准且高效的RDMA网络性能异常诊断系统。Hawkeye包含三个核心部分:PFC感知的精细化遥测机制,用于记录PFC对数据流的性能影响;基于网络侧的PFC因果分析与追踪机制,可快速高效地收集诊断所需的因果遥测数据;基于溯源的诊断算法,可全面呈现异常因果关系,精准识别异常类型及其根本原因。通过模拟环境和硬件测试床上的评估,Hawkeye能够以超过90%的精度快速准确地诊断多种RDMA 网络性能异常,且开销比基线方案低1至4个数量级。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750490

9月11日Network Architecture & Satellites Session

论文简介

       美国Starlink、欧洲OneWeb等低轨巨型星座网络正争相部署,推动网络空间从地面扩展至空天,形成天地一体化互联网,实现互联网诞生以来最重要的边界扩展与突破。然而,巨型星座网络不仅建设成本高昂、市场准入门槛极高、容易造成垄断和网络中心化,而且严重消耗卫星频谱、轨道等不可再生资源,更严重拥堵近地轨道,不利于人类对外太空的可持续利用,已引发国际社会的广泛关切。针对该问题,本文提出一种巨型星座网络的小型化替代方案TinyLEO,采用网络-物理空间联合设计,基于动态时空供需匹配思想,突破按需稀疏非均匀组网、控制面轨道模型预测编排、数据面地理位置任意播等技术,充分利用有限物理空间资源满足网络空间需求,构建可持续扩展的天地一体化互联网。实验结果表明,在保障与Starlink同等网络性能的前提下,TinyLEO可将所需卫星数量减少2.0~7.9倍,信令开销降低1~3个数量级。TinyLEO工具集完全开源,向全球研究人员与行业同仁开放使用。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750525

论文简介

       手机直连卫星网络方兴未艾,允许普通手机通过4G/5G通信技术接入卫星,实现随时随地的网络服务。本文发现,现有手机直连卫星网络的无线接入、身份认证和漫游服务授权等关键功能过度依赖第三方卫星导航系统的定位和授时信息,引发网络连接不稳定、计费异常、未授权接入乃至服务拒绝等可靠性问题。本文提出卫星网络自主导航技术SN2,基于互联网“命运共享”设计理念,复用手机直连卫星信号为上述功能提供定位授时,摆脱对第三方卫星导航系统的跨体制依赖。基于真实直连卫星手机和半实物3GPP NTN协议栈的实验表明,与传统解决方案相比,SN2的网络可用性提升4.4~23.5倍,接入时延降低1.9~12.3倍,显著提高了手机直连卫星网络的可用性、可靠性和安全性。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750522

9月11日Distributed Systems Session

论文简介

       本文提出了一种名为DeepTrace的低开销、非侵入式分布式追踪框架,旨在解决微服务系统中高并发环境下现有追踪方案(如基于FIFO或延迟关联的方法)在准确性和性能上的不足。DeepTrace通过协议感知的Span构建、基于事务的Span关联机制和查询驱动的追踪组装,实现了超过95%的追踪准确率,并在实际生产环境中被成功用于故障诊断等任务,显著提升了分布式系统可观测性的效率与可靠性。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750477

网络研究院毕业生第一作者论文

9月10日NetAI Session

论文简介

       当前主流的集合通信库的通信算法固定,无法适应多样化的网络拓扑和模型配置,导致带宽闲置或延迟增加,性能受限。针对上述集合通信算法固定导致性能差的问题,SyCCL设计了高效的集合通信算法自动生成技术,通过对通信过程建模来自动生成最优算法,同时基于拓扑和流量的对称性减小搜索空间。算法生成时间较已有微软TECCL降低2-4个数量级,集合通信性能提升多达2倍。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750499

9月10日Network Architecture Session

论文简介

       智能网卡越来越多地应用于加速云网络,硬件加速的有效性和正确性很大程度上取决于其表项管理机制。然而,传统的管理机制采用以软件为中心的架构,将流作为基本管理单元,并完全依赖单向的命令来管理流表,使得在管理超大规模流表时难以支持各类云网络场景。本文提出一种全新的机制,将管理范式从以软件为中心的架构转变为以硬件为中心的架构,其以会话为基本管理单元,并通过双向的协议来简化管理流程。本文提出并实现了首个该类系统Fornax,一种适用于大型公共云网络的新型管理架构。Fornax的核心在于利用会话赋能的硬件引擎来提供各种管理功能。此外,Fornax使用轻量级软件管理器来增强系统可扩展性,并使用硬件驱动的管理协议来提高资源效率。基于测试平台的评估表明,Fornax可以在几乎不增加硬件资源开销的情况下,将软件存储使用量降低80%,CPU使用量降低77%。大规模现网结果表明,Fornax可以管理高达1600万个会话条目,同时显著降低79%以上的资源开销。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750501

9月10日NetMon & Hyperscalers Session

论文简介

       广域网(WAN)中的光纤链路暴露于复杂的环境中,因此容易受到光纤断裂等故障的影响。传统的静态概率故障方法在光纤断裂场景下显得力不从心,因为这类光纤断裂虽然罕见,但却具有破坏性,这使得网络运营商难以在广域网流量工程中平衡网络利用率和可用性。本文对每秒光层数据的大规模测量表明,当光纤经历罕见且短暂的劣化状态时,其故障概率会增加几个数量级。因此,本文提出了一种名为PreTE的新型流量工程(TE)系统,将动态光纤断裂概率直接纳入TE系统。PreTE系统的核心在于,光纤劣化有助于故障预测和流量隧道的主动更新,并在更新后的隧道之间优化流量分配。本文使用生产级WAN测试平台和大规模模拟来评估PreTE。测试平台评估量化了PreTE的运行时间,以证明其在大规模广域网中实施的可行性。大规模仿真结果表明,与现有的TE方案相比,PreTE在相同可用性水平下可以支持高达2倍的需求。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750508

科研之路,永无止境

网研师生,将行健不息

在追求卓越中不断开拓创新

网络研究院师生及毕业生部分参会人员合影