【论文阅读笔记】Congestion Control for Cross-Datacenter Networks
原文链接:Zeng, G.; Bai, W.; Chen, G.; Chen, K.; Han, D.; Zhu, Y.; Cui, L. Congestion Control for Cross-Datacenter Networks. In 2019 IEEE 27th International Conference on Network Protocols (ICNP); IEEE: Chicago, IL, USA, 2019. https://doi.org/10.1109/icnp.2019.8888042.
Introduction
- Cross-Datacenter Networks(跨数据中心网络):即多个分布在各地的 DCN 通过 WAN(广域网)实现互联。
本文要解决的核心问题,就是跨数据中心网络的特殊情况,下图是一个简单的拓扑示例:
两边分别是数据中心网络,而两个数据中心需要通过广域网实现互联。两种网络具有不同的特点:
- WAN(广域网):关注网络利用率,即最大化吞吐,对延迟等无所谓;同时,为了缓解突发流量带来的丢包,交换机需要有深缓冲区(deep buffers)存储临时积压的数据,从而避免数据包丢失,提高链路利用率。
- DCN(数据中心网络):主要关注延迟(分布式存储、AI训练等场景,对微秒级延迟极其敏感。);同时,浅缓冲(shallow buffer),可以促使上层协议或控制器快速检测并避免拥塞(如果交换机缓冲区过深,包在队列中排队时间增加,即使不丢包,也会大大增加网络尾延迟)。
可见,两者的优化目标不太一致,现有的拥塞控制算法主要分为基于以下 2 种拥塞信号:
- 基于显示拥塞通知(ECN):以 DCTCP 和 DCQCN 为代表,但ECN 阈值的设置很难兼顾 intra-DC(数据中心内部的短 RTT 低延迟流,需要更小的 ECN 阈值)和 inter-DC(跨数据中心的长 RTT 大吞吐流,需要高的 ECN 阈值);
- 基于延迟:以 TCP Vegas 和 TIMELY 为代表,但是延迟测量的是端到端的,只能用来衡量网络“整体是否变慢”,无法区分是 DCN 段还是 WAN 段发生了拥塞;
这篇论文提出的 GEMINI 算法认为需要将二者结合,实现:
- 实现低延时,即使数据中心交换机(更易丢包)与广域网路由器(更易积累大缓冲)存在显著差异的缓冲深度;
- 在 DCN 交换机浅缓冲区的条件下仍能维持高吞吐率;
Experiment
暂时只关注其实验部分,忽略其算法设计。
测试平台:网络的拓扑结构如下:
相关设定和参数:
- Link Capacity(链路带宽):均为 1 Gbps ;
- base RTTs (without queueing):
- inter-DC(数据中心内部):~ 200 微秒;
- intra-DC(跨数据中心):~ 10 毫秒;
- Buffer size(缓冲区大小):
- DC Switch(数据中心内部交换机):~ 450 个数据包;
- Border Router(边界路由器):~ 10000 个数据包;
- 数据包大小为 1.5 KB(MTU);
- ECN threshold(ECN 阈值):
- DC switches:300 个数据包;
- WAN:未启用 ECN ;
- CC Algorithm:
- DCN 内部:DCQCN ;
- 跨数据中心:TCP Cubic/Vegas/BBR/DCTCP ;
测量指标:
- FCT(Flow Completion Time,流完成时间):即一个数据流从开始发送到全部传输完成所需的总时间;
- Throughput 吞吐量;
- Latency 延迟;
测量结果:
一些可视化图表参考:
Algorithm
有关 GEMINI 的具体算法设计,此处暂不具体研究和介绍。
【论文阅读笔记】Congestion Control for Cross-Datacenter Networks
https://blog.yokumi.cn/2025/07/14/【论文阅读笔记】Congestion Control for Cross-Datacenter Networks/