【论文阅读笔记】Congestion Control for Cross-Datacenter Networks

原文链接:Zeng, G.; Bai, W.; Chen, G.; Chen, K.; Han, D.; Zhu, Y.; Cui, L. Congestion Control for Cross-Datacenter Networks. In 2019 IEEE 27th International Conference on Network Protocols (ICNP); IEEE: Chicago, IL, USA, 2019. https://doi.org/10.1109/icnp.2019.8888042.

Introduction

  • Cross-Datacenter Networks(跨数据中心网络):即多个分布在各地的 DCN 通过 WAN(广域网)实现互联。

本文要解决的核心问题,就是跨数据中心网络的特殊情况,下图是一个简单的拓扑示例:

两边分别是数据中心网络,而两个数据中心需要通过广域网实现互联。两种网络具有不同的特点:

  • WAN(广域网):关注网络利用率,即最大化吞吐,对延迟等无所谓;同时,为了缓解突发流量带来的丢包,交换机需要有深缓冲区(deep buffers)存储临时积压的数据,从而避免数据包丢失,提高链路利用率
  • DCN(数据中心网络):主要关注延迟(分布式存储、AI训练等场景,对微秒级延迟极其敏感。);同时,浅缓冲(shallow buffer),可以促使上层协议或控制器快速检测并避免拥塞(如果交换机缓冲区过深,包在队列中排队时间增加,即使不丢包,也会大大增加网络尾延迟)。

可见,两者的优化目标不太一致,现有的拥塞控制算法主要分为基于以下 2 种拥塞信号:

  1. 基于显示拥塞通知(ECN):以 DCTCP 和 DCQCN 为代表,但ECN 阈值的设置很难兼顾 intra-DC(数据中心内部的短 RTT 低延迟流,需要更小的 ECN 阈值)和 inter-DC(跨数据中心的长 RTT 大吞吐流,需要高的 ECN 阈值);
  2. 基于延迟:以 TCP Vegas 和 TIMELY 为代表,但是延迟测量的是端到端的,只能用来衡量网络“整体是否变慢”,无法区分是 DCN 段还是 WAN 段发生了拥塞;

这篇论文提出的 GEMINI 算法认为需要将二者结合,实现:

  1. 实现低延时,即使数据中心交换机(更易丢包)与广域网路由器(更易积累大缓冲)存在显著差异的缓冲深度;
  2. 在 DCN 交换机浅缓冲区的条件下仍能维持高吞吐率;

Experiment

暂时只关注其实验部分,忽略其算法设计。


测试平台:网络的拓扑结构如下:


相关设定和参数

  • Link Capacity(链路带宽):均为 1 Gbps ;
  • base RTTs (without queueing)
    • inter-DC(数据中心内部):~ 200 微秒;
    • intra-DC(跨数据中心):~ 10 毫秒;
  • Buffer size(缓冲区大小)
    • DC Switch(数据中心内部交换机):~ 450 个数据包;
    • Border Router(边界路由器):~ 10000 个数据包;
    • 数据包大小为 1.5 KB(MTU);
  • ECN threshold(ECN 阈值)
    • DC switches:300 个数据包;
    • WAN:未启用 ECN ;
  • CC Algorithm
    • DCN 内部:DCQCN ;
    • 跨数据中心:TCP Cubic/Vegas/BBR/DCTCP ;

测量指标

  • FCT(Flow Completion Time,流完成时间):即一个数据流从开始发送到全部传输完成所需的总时间;
  • Throughput 吞吐量
  • Latency 延迟

测量结果

一些可视化图表参考:

Algorithm

有关 GEMINI 的具体算法设计,此处暂不具体研究和介绍。


【论文阅读笔记】Congestion Control for Cross-Datacenter Networks
https://blog.yokumi.cn/2025/07/14/【论文阅读笔记】Congestion Control for Cross-Datacenter Networks/
作者
Yokumi
发布于
2025年7月14日
更新于
2025年7月15日
许可协议