【论文阅读笔记】Congestion Control for Cross-Datacenter Networks

原文链接：Zeng, G.; Bai, W.; Chen, G.; Chen, K.; Han, D.; Zhu, Y.; Cui, L. Congestion Control for Cross-Datacenter Networks. In 2019 IEEE 27th International Conference on Network Protocols (ICNP); IEEE: Chicago, IL, USA, 2019. https://doi.org/10.1109/icnp.2019.8888042.

Introduction

Cross-Datacenter Networks（跨数据中心网络）：即多个分布在各地的 DCN 通过 WAN（广域网）实现互联。

本文要解决的核心问题，就是跨数据中心网络的特殊情况，下图是一个简单的拓扑示例：

两边分别是数据中心网络，而两个数据中心需要通过广域网实现互联。两种网络具有不同的特点：

WAN（广域网）：关注网络利用率，即最大化吞吐，对延迟等无所谓；同时，为了缓解突发流量带来的丢包，交换机需要有深缓冲区（deep buffers）存储临时积压的数据，从而避免数据包丢失，提高链路利用率。
DCN（数据中心网络）：主要关注延迟（分布式存储、AI训练等场景，对微秒级延迟极其敏感。）；同时，浅缓冲（shallow buffer），可以促使上层协议或控制器快速检测并避免拥塞（如果交换机缓冲区过深，包在队列中排队时间增加，即使不丢包，也会大大增加网络尾延迟）。

可见，两者的优化目标不太一致，现有的拥塞控制算法主要分为基于以下 2 种拥塞信号：

基于显示拥塞通知（ECN）：以 DCTCP 和 DCQCN 为代表，但ECN 阈值的设置很难兼顾 intra-DC（数据中心内部的短 RTT 低延迟流，需要更小的 ECN 阈值）和 inter-DC（跨数据中心的长 RTT 大吞吐流，需要高的 ECN 阈值）；
基于延迟：以 TCP Vegas 和 TIMELY 为代表，但是延迟测量的是端到端的，只能用来衡量网络“整体是否变慢”，无法区分是 DCN 段还是 WAN 段发生了拥塞；

这篇论文提出的 GEMINI 算法认为需要将二者结合，实现：

实现低延时，即使数据中心交换机（更易丢包）与广域网路由器（更易积累大缓冲）存在显著差异的缓冲深度；
在 DCN 交换机浅缓冲区的条件下仍能维持高吞吐率；

Experiment

暂时只关注其实验部分，忽略其算法设计。

测试平台：网络的拓扑结构如下：

相关设定和参数：

Link Capacity（链路带宽）：均为 1 Gbps ；
base RTTs (without queueing)：
- inter-DC（数据中心内部）：~ 200 微秒；
- intra-DC（跨数据中心）：~ 10 毫秒；
Buffer size（缓冲区大小）：
- DC Switch（数据中心内部交换机）：~ 450 个数据包；
- Border Router（边界路由器）：~ 10000 个数据包；
- 数据包大小为 1.5 KB（MTU）；
ECN threshold（ECN 阈值）：
- DC switches：300 个数据包；
- WAN：未启用 ECN ；
CC Algorithm：
- DCN 内部：DCQCN ；
- 跨数据中心：TCP Cubic/Vegas/BBR/DCTCP ；