1 绪论
1.1 研究背景与意义
1.1.1 背景
由于信息化的快速发展,依赖于云服务的需求呈现出爆炸式的增长趋势,导致云服务正在发展为一个具有战略意义的新型产业[1],促使以云服务为基础的市场规模持续高速增长。据Gartner 最新数据显示,2017年全球公有云市场规模已达到2602亿美元,而2020年该市场规模预计达到4114亿美元①。面对巨大的市场前景,许多互联网公司分别推出了自己的云平台,如亚马逊的EC2②,微软的Azure③,谷歌的App Engine④等。国内的各大电信运营商和互联网公司也加纷纷推出相关的云计算产品抢占云计算市场。同时,我国政府近些年也密集出台了支持云计算发展的相关政策,以确保云计算作为未来信息科技发展的有力支撑。
3.1 引言...........501.1 研究背景与意义
1.1.1 背景
由于信息化的快速发展,依赖于云服务的需求呈现出爆炸式的增长趋势,导致云服务正在发展为一个具有战略意义的新型产业[1],促使以云服务为基础的市场规模持续高速增长。据Gartner 最新数据显示,2017年全球公有云市场规模已达到2602亿美元,而2020年该市场规模预计达到4114亿美元①。面对巨大的市场前景,许多互联网公司分别推出了自己的云平台,如亚马逊的EC2②,微软的Azure③,谷歌的App Engine④等。国内的各大电信运营商和互联网公司也加纷纷推出相关的云计算产品抢占云计算市场。同时,我国政府近些年也密集出台了支持云计算发展的相关政策,以确保云计算作为未来信息科技发展的有力支撑。
数据中心(Data Center,DC)作为云服务的载体已成为产业界和学术界研究的焦点。随着云服务用户的爆炸式增长,以及新型服务模式与技术的出现,云数据中心正经历着巨大的变化,这也给数据中心网络(Data Center Network,DCN)带来了新的挑战和问题。在业务层面,传统云服务业务的网络数据流主要出现在远程客户端与数据中心服务器之间,而服务器内部的数据传输较少;但是,随着大量新的业务迁移到云平台,如分布式存储,在线销售服务,网络游戏,存储备份等一些数据密集型的应用,其网络数据流则以内部服务器之间的数据流为主[2]。云数据中心应用的复杂和差异化,必然带来网络数据流传输性能需求的复杂和差异化。另一方面,为了满足日益增加的云服务用户各自差异化的性能需求,云数据中心利用虚拟化技术让多个租户共享数据中心资源,并且以高灵活性和高可扩展性的方式来动态分配和共享资源,这也使得云数据中心网络性能的隔离与共享成为一个难题[3,4]。在网络带宽层面,云服务提供商不断提升网络带宽,使得云数据中心网络传输的平均时延越来越低[5],根据文献[60]的实验测试表明:在一个10Gbps互连的云数据中心,有74%的应用数据包的平均往返时延(Round Trip Time,
RTT)小于300μs,这一变化导致现有粗粒度的拥塞控制与网络传输方案很难提供令人满意的性能。在网络拓扑和硬件层面,为了支撑海量的业务,云数据中心网络拓扑从传统的小规模的单路径结构,向大规模、高可扩展的多路径结构发展[6];而交换机功能则由简单的存储转发,发展到支持多队列和显式拥塞通知(Explicit Congestion Notification, ECN)等丰富的功能[7]。
.........................
.........................
1.2 研究现状
在章节1.1.2和1.1.3中,详细介绍了在海量租户和新型业务模式驱动下,云数据中心网络与数据流量所具有的新特征和发展趋势。而这些新的特征和发展趋势也给云数据中心网络传输带了新的问题和挑战,并受到了产业界和学术界的广泛关注,云数据中心网络相关的研究成果也不断出现在网络领域里的各个主流会议与期刊上。本章节结合云这些新的特征和发展趋势,分别介绍云数据中心拥塞控制与流量调度机制的研究现状。
1.2.1 面向单队列传输的拥塞控制机制研究现状
在章节1.1.2和1.1.3中,详细介绍了在海量租户和新型业务模式驱动下,云数据中心网络与数据流量所具有的新特征和发展趋势。而这些新的特征和发展趋势也给云数据中心网络传输带了新的问题和挑战,并受到了产业界和学术界的广泛关注,云数据中心网络相关的研究成果也不断出现在网络领域里的各个主流会议与期刊上。本章节结合云这些新的特征和发展趋势,分别介绍云数据中心拥塞控制与流量调度机制的研究现状。
1.2.1 面向单队列传输的拥塞控制机制研究现状
面对爆炸式增长的租户,云数据中心一方面不断扩大服务器规模,来应对海量租户带来复杂和差异化的服务需求;另一方面,利用虚拟化技术来实现资源的高度复用,以提升云数据中心资源利用率[36]。但是这却给云数据中心网络传输的拥塞控制带来巨大的挑战。因为不断动态加入的租户不仅带来了丰富的网络数据流,更使得云数据中心网络传输变得相当复杂。更为重要的是,虚拟化技术的使用,虽然在一定程度上有效地提升了云数据中心资源利用率,但是却给网络传输带来了很大的挑战。因为现有云数据中心虚拟化技术虽说较好的解决计算资源的隔离与共享,但是无法对网络资源实现有效的隔离共享[37,38]。例如,亚马逊的EC2很好地实现了多个虚拟机共享一个物理机时,对单个物理机CPU、内存、存储以及I/O资源的隔离共享,但是对于如何隔离各类租户的网络数据流,以及各个租户如何共享网络资源,在其服务等级协议(Service-Level Agreement,SLA)中并无任何明确的描述[13,39]。这主要是因为云数据中心网络资源的使用,需要多个通讯会话的实体共同协调完成,基于单个物理机的虚拟机策略很难对云数据中心网络资源实现很好的隔离共享。
上述现状导致云数据中心网络传输的拥塞控制变的越来越重要。云数据中心网络拥塞控制主要是为了在满足复杂和差异化应用需求的同时,减少网络拥塞,提升网络资源利用率;而云数据中心拥塞发生的主要原因在于,网络提供的资源不足以满足复杂数据流的需求,导致服务质量下降[42,43]。而在面对巨量性能需求差异化的租户,云数据中心无法实现有效的网络资源隔离与共享,导致现有的云数据中心拥塞控制机制,也很难在拥塞控制层面实现网络资源的隔离与有效共享。一些云数据中心拥塞控制与流量调度方案,在整个网络传输过程中都不区分性能需求差异化的数据流;就像这些数据包汇聚在同一个队列中等待使用网络资源一样[44],因而,这类拥塞控制方案也被视为面向单队列传输的拥塞控制机制。
............................
............................
2 基于数据包往返时延RTT的显式拥塞通知R-ECN
2.1 引言
拥塞控制一直是云数据中心最基本,也是最核心的一个问题。从TCP协议诞生至今,网络拥塞控制一直是产业界和学术界关注的焦点问题。TCP协议诞生之初,是面向用户环境单一、高时延、低带宽、低吞吐率的Internet网络而设计的。在这种用户环境简单且单一的Internet网络中,TCP协议依靠数据包的超时重传,这种隐式的拥塞控制机制取得了重大的成功。随着云计算的兴起,大量的租户和应用移向“云端”,导致云数据中心应用和网络环境与传统的Internet网络环境产生了很大的区别。云数据中心网络具有高带宽、低时延、高并发、高度动态性等特点,这使得基于隐式拥塞控制机制的TCP协议很难满足云数据中心拥塞控制的需求。另外,云数据中心租户的爆炸式增长致使云数据中心网络数据流变得高度复杂,不同租户或者应用的数据流,在性能需求上呈现出明显的差异化。这些新的变化都促使研究人员设计新型高效的拥塞控制机制。
2.1 引言
拥塞控制一直是云数据中心最基本,也是最核心的一个问题。从TCP协议诞生至今,网络拥塞控制一直是产业界和学术界关注的焦点问题。TCP协议诞生之初,是面向用户环境单一、高时延、低带宽、低吞吐率的Internet网络而设计的。在这种用户环境简单且单一的Internet网络中,TCP协议依靠数据包的超时重传,这种隐式的拥塞控制机制取得了重大的成功。随着云计算的兴起,大量的租户和应用移向“云端”,导致云数据中心应用和网络环境与传统的Internet网络环境产生了很大的区别。云数据中心网络具有高带宽、低时延、高并发、高度动态性等特点,这使得基于隐式拥塞控制机制的TCP协议很难满足云数据中心拥塞控制的需求。另外,云数据中心租户的爆炸式增长致使云数据中心网络数据流变得高度复杂,不同租户或者应用的数据流,在性能需求上呈现出明显的差异化。这些新的变化都促使研究人员设计新型高效的拥塞控制机制。
研发人员基于显式拥塞通知机制ECN设计出了许多面向数据中心单队列传输模式的传输协议,这类传输协议利用ECN机制提供的相对比较精确的拥塞反馈信息来实施速率控制。由于ECN让交换机直接参与到网络拥塞控制中并显式地提供拥塞反馈,这类传输协议能有效地改善云数据中心网络传输的性能;因而在当前云数据中心得到了广泛的应用。但是,当前的显式拥塞通知ECN存在两个问题严重制约着这些面向单队列传输的网络传输协议的性能。一是,当前的ECN机制通过单个交换机端口或者队列的拥塞判断整个网络的拥塞状态,因此不能提供精确的端到端的拥塞反馈信息。二是,当前的ECN机制通过一个静态的ECN门限值,来判断高度动态变化的数据流在复杂的网络中是否发生了拥塞,不能满足云数据中心应用和网络高度动态变化的需求。
......................
......................
2.2 研究现状与问题分析
2.2.1 基于ECN的传输协议
(1)显式拥塞通知ECN
显式拥塞通知ECN机制已经成为数据中心商用交换机的一个基本功能模块,数据中心交换机通过对比ECN门限值与端口或者队列中数据包的个数,来确定是否在数据包的IP头部标记拥塞,用以给发送方提供拥塞反馈信息。这种让交换机直接监控网络传输的机制能有效地缓解网络拥塞。RFC 791[73]文档中也明确定义了ECN门限值的计算方法,如公式2-1所示:

个相同的ECN门限值去判断整个网络的拥塞状况,而忽略不同数据流性能需求上的差异,因而是典型的面向单队列传输模式的拥塞控制机制。为了简化动态变更ECN门限值带来的麻烦,云数据中心传输协议根据具体的链路容量提前设置一个静态的ECN门限值。但是,一个静态的ECN 门限值很难精确地判断复杂的数据流在高度动态变化的云数据中心网络是否发送拥塞。例如,时延敏感的数据流需要的较低的ECN门限值,来维持低时延;而带宽敏感的大块数据流则是希望传输协议设置一个较大的ECN门限值,因为偏大的ECN门限值有利于大块数据流占据交换机队列。但为了保障时延敏感应用对低时延的需求,云数据中心传输协议一般都会提前设置一个偏低的静态ECN门限值。
..........................
3 基于不同队列排队时延的显式拥塞通知QD-ECN...........50
2.2.1 基于ECN的传输协议
(1)显式拥塞通知ECN
显式拥塞通知ECN机制已经成为数据中心商用交换机的一个基本功能模块,数据中心交换机通过对比ECN门限值与端口或者队列中数据包的个数,来确定是否在数据包的IP头部标记拥塞,用以给发送方提供拥塞反馈信息。这种让交换机直接监控网络传输的机制能有效地缓解网络拥塞。RFC 791[73]文档中也明确定义了ECN门限值的计算方法,如公式2-1所示:

个相同的ECN门限值去判断整个网络的拥塞状况,而忽略不同数据流性能需求上的差异,因而是典型的面向单队列传输模式的拥塞控制机制。为了简化动态变更ECN门限值带来的麻烦,云数据中心传输协议根据具体的链路容量提前设置一个静态的ECN门限值。但是,一个静态的ECN 门限值很难精确地判断复杂的数据流在高度动态变化的云数据中心网络是否发送拥塞。例如,时延敏感的数据流需要的较低的ECN门限值,来维持低时延;而带宽敏感的大块数据流则是希望传输协议设置一个较大的ECN门限值,因为偏大的ECN门限值有利于大块数据流占据交换机队列。但为了保障时延敏感应用对低时延的需求,云数据中心传输协议一般都会提前设置一个偏低的静态ECN门限值。
..........................
3 基于不同队列排队时延的显式拥塞通知QD-ECN...........50
3.2 研究现状和问题分析 ...........50
3.3 QD-ECN算法设计...........50
4 基于主机端的流量调度算法SPQ...........78
4.1 引言...........78
4.2 研究现状和问题分析...........78
5 全文总结与展望..............100
5.1 主要成果贡献..............100
5.2 研究展望..............100
4 基于主机端的流量调度算法SPQ
4.1 引言
流量调度是对云数据中心复杂数据流在共享网络资源时进行资源优化分配的问题,直接关系到云数据中心性能需求差异化的应用的网络传输性能。因此流量调度一直是产业界和学术界关注的重点。随着云数据中心租户和应用的爆炸式增长,云数据中心应用在性能需求上呈现出明显的差异化。例如,有些应用(如:在线销售、网页搜索、证券交易等业务)的数据流量非常小,一般都是几KB到几百KB,这些小块的数据流在网络传输过程中对时延非常敏感,往往非常小的传输延时就会带来很大的收益损失[26,28]。而另外一些应用(如:数据分析、存储备份、虚拟机迁移等业务)的数据流量一般都非常大,这些应用对传输时延没什么要求,但是由于其数据流量一般都非常庞大,因而需要占用云数据中心大量带宽来实现网络传输。另一方面,由于云数据中心缺乏对不同应用数据流的有效隔离,使得这些性能需求差异化的数据流不得不经常去竞争相同的网络资源,从而给云数据中心流量管理带来很大的挑战。
.......................
5 全文总结与展望
5.1 主要成果贡献
由于信息化的快速发展,依赖于云服务的需求呈现出爆炸式的增长趋势,导致云服务正在发展为一个具有战略意义的新型产业,这也促使以云服务为基础的市场规模持续高速增长。面对巨大的市场情景,许多互联网公司分别推出了自己的云平台,如亚马逊的EC2,微软的Azure,谷歌的App Engine等。作为承载云服务业务的载体,云数据中心自然也成为了关注和研究的焦点,这也迅速推动云服务软、硬件技术的快速发展。例如,网络带宽的不断提升促使云数据中心网络传输具有低时延、高并发、高突发性等特点。另一方面,大量租户和应用的迁入导致云数据中心的应用变得越来越复杂,并且不同应用的数据流在性能需求上呈现出明显的差异化。而云数据中心还未能实现对网络数据流有效的性能隔离与共享,导致这些性能需求差异化的数据流不得不争用有限的网络资源,给云数据中心拥塞控制和流量调度带来了很大的挑战。当前许多流量调度和拥塞控制方案虽说能较好的解决云数据中心所面临的一些问题,但是随着新技术的出现和服务模式的变更,当前的流量调度和拥塞控制方案仍然遇到了很大的挑战。本文主要围绕云数据中心新的变化带来的问题和挑战,从拥塞控制和流量调度的角度出发研究如何优化云数据中心网络传输。具体的研究内容与研究成果如下。
(1) 大多云数据中心网络传输协议根据显式拥塞通知ECN提供的拥塞反馈信息在发送方调节发送窗口的大小。此类网络传输协议在整个传输过程中都不明确区分长短数据流的差异,是典型的面向单队列传输的流量调度方案;由于有着广泛的适用范围和良好的可部署性,这类方案在云数据中心应用也非常广。此类方案的网络传输性能非常依赖ECN提供的拥塞反馈信息的精度。但是,当前静态的ECN机制无法提供精确的拥塞反馈信息,已经成为改善这些面向单队列传输的传输协议性能的瓶颈。针对这个问题,提出了基于数据包往返时延RTT的显式拥塞通知R-ECN。R-ECN利用数据包往返时延RTT动态调节ECN门限值,从而实现了根据网络状态的变化提供精确拥塞反馈信息的目的。同时,为了保留了当前多数云数据中心网络传输协议易于部署实施的优点,R-ECN也被设计成面向单队列传输的拥塞控制机制。实验结果表明:R-ECN能进一步改善云数据中心网络传输协议的传输性能,同时还能有效改善网络资源利用率;在相同的实验测试环境下,基于R-ECN机制的传输协议DCTCP的丢包量比基于ECN机制的DCTCP丢包量少了1.95倍。该研究成果作为一个创新点提交到IWQoS 2019。
(2) 许多云数据中心多队列流量调度方案都会采用显式拥塞通知ECN提供的拥塞反馈信息实施拥塞控制和流量调度。但是当前的ECN机制利用一个静态的ECN门限值判断整个传输路径上的拥塞状态,导致当前的ECN机制不能为多队列流量调度方案提供精确且差异化的拥塞反馈信息。因为多队列流量调度方案中不同优先级队列的传输时延呈现出明显的差异,而一个静态的ECN门限值不可能精确反映出这种差异。为了解决这个问题,提出了基于不同队列排队时延的显式拥塞通知QD-ECN,QD-ECN根据多队列流量调度方案中不同优先级队列排队时延上的差异,为每一个队列设置了一个不同ECN门限值。同时为了根据网络状态动态提供精确的拥塞反馈信息,QD-ECN利用数据包的单程排队时延动态调节多个差异化的ECN门限值。实验测试结果显示:QD-ECN能提供更为精确的拥塞反馈信息,来进一步改善多队列流量调度方案的传输性能。与基于ECN机制的多队列流量调度方案PIAS相比,基于QD-ECN机制的PIAS能减少时延敏感短流99.9%位置的流完成时间多达3.06倍。该研究成果已经提交IWQoS 2019。
参考文献(略)
参考文献(略)