第一章引言
1.1研究背景及意义
云计算是一种基于互联网的商业模式,将计算资源以类似于传统的公共服务,如水、电、燃气的方式提供给用户。通过这种模式用户可以利用各种终端设备,如个人计算机、笔记本电脑及智能手机等,随时随地通过互联网访问云计算的服务。用户按需请求和使用计算资源,而无需关心计算资源具体的物理位置或者计算资源是如何被提供的,并根据实际使用付费。这种新型的商业模式也正在为IT行业带来巨大的转变,改变着行业软硬件资源的设计、交付和购买方式。
云计算是弹性的,可根据负载大小进行动态的资源分配,快速地弹性伸缩规模,避免由于物理服务器过载或者冗余造成的服务质量下降或者资源浪费。云计算的资源以共享资源池的形式统一管理。计算和存储等资源通过虚拟化技术,为不同的用户共享。而资源的放置、管理以及分配策略等对于用户来说是透明的。
对于IT服务提供者來说,向云服务提供商租用计算资源可以让他们无需独立承担购买和部著硬件设备的巨大成本以及运营和维护的人力成本。云计算的弹性伸缩特性也让开发者们也无需担心幵发成果并没有达到预期的受欢迎程度而浪费昂贵的计算资源,或者开发成果的效果远远超出了预期而由于计算资源不够失去更多的潜在客户和利益。他们只需按照需求动态地请求和追加计算资源。对于普通用户来说,可以随时通过互联网向云服务提供商租用软件资源,无需考虑本地机器的配置及软件的安装等问题,因为计算都在云端进行。
随着云计算数据中心规模的扩大,也面临着能耗开销的增大,以及物理服务器资源利用率低,负载变动较大的问题。
用户按照自身需求向云提供商动态地请求资源,云计算的负载量可能随着用户需求在时间上发生巨大的变化。云提供商为满足峰值的用户请求需要部署大量的计算资源,并且为这些动态到达的请求,动态地分配资源。为了节省开销,云需要根据负载量自动伸缩规模以节省开销。
1.2研究现状
1.2.1基于能耗成本的动态资源分配方法的相关研究
虚拟化技术被看作一种提高服务器资源利用率的有效方法。通过虚拟化技术可以将一些物理服务器的资源逻辑上划分为更细的粒度进行资源分配,物理资源的共享提高了资源利用率。
一些文献研究托管了网络应用的虚拟化数据中心的节能问题。由于数据中心的负载可能随着时间发生巨大的变化,这些工作旨在研究随着负载变化的资源分配和调整的问题。这些研究也考虑了能耗的因素,进行能耗和性能的折中。文献研究了能耗、性能及调整成本之间的折中问题。则提出了一种固定的性能约束下优化整体效用的算法。然而这些算法都具有较高的搜索空间,较高的算法复杂度,并可能会导致不必要的虚拟机实例的迁移。此外,虚拟机迁移等手段的使用也可能带来额外的能耗成本,并对系统性能造成影响。
此外还有一些文献研究IaaS数据中心的节能问题。云提供商通过虚拟化技术,以虚拟机实例的形式向用户提供计算资源。用户根据自身需求向IaaS云提供商请求计算资源。由于用户只在一段时间内占用虚拟机资源,因而每个虚拟机实例都有生存周期。当一个实例运行完后,它原本使用的资源被释放。而这部分的资源在被分配给其他的实例之前是空置的,从而造成资源未完全利用带来的浪费。一些文献试图找到一种虚拟机聚集的方法,尽量避免这种空置资源的情况产生或者对这种控制的情况进行补救,尽早关停更多的节点,以节省能耗。
第二章相关概念介绍
2.1云计算的三种服务模式
美国国家标准和技术研究院将云计算划分为三种服务模式:
基础设施即服务IaaS,例如Amazon AWS和Rackspase等等,将基础的计算资源,如计算机(物理服务器或者虚拟机、存储空间、网络连接、负载均衡和防火墙等以服务的形式提供给用户。用户通过互联网获取基础设施的服务。本文研究的基于能耗成本的动态资源方法主要针对IaaS数据中心。
平台即服务PaaS,例如Google App Engine等等,将软件研发的平台作为一种服务提供给用户。平台包括了操作系统、编程语言的运行环境、数据库及web服务器等等。在云提供的软件平台上面用户可以按照自身的需求自由地组合服务,部署和运行自己的应用。降低了用户软件研发的过程的复杂度及软硬件成本。
软件即服务SaaS,例如Microsoft CRM等等,将软件以服务的形式通过互联网提供给用户,用户租赁而不是购买软件。SaaS降低了软件的授权费用,且由于应用软件部署在软件服务提供商云端的服务器上,用户无需为软件维护相应的硬件设备、网络安全设备、软件的升级等等。为用户节省大量的人力成本。
此外根据云计算的部署模型还可以分为公用云,私有云,社区晕,混合云等等。这里不做详细地介绍。
2.2云计算的特性
云计算是在并行计算、分布式计算、网格计算以及虚拟化等技术之上发展起来的。但是云计算还具有以下的特性:
(1)超大规模:云计算具有非常庞大的规模以支撑强大的计算能力需求。目前Amazon、微软、IBM等业界大公司己经拥有十几万台的物理服务器。Google的云平台甚至拥有了百万台的物理服务器。即使是企业的私有云的规模一般也能达到数百上千台服务器。正是云计算的超大规模的特性为故障管理带来了新的挑战,本文对此研究了高效的故障探针选择方法。
(2)虚拟化技术的使用:云计算利用虚拟化技术,将云计算的资源以共享资源池的形式统一管理。实现了物理资源逻辑上为众多用户的共享。用户无需关心资源资源的具体位置。本文研究的动态资源方法主要针对应用了虚拟化技术的,以虚拟机实例形式提供资源的IaaS数据中心。
(3)可扩展性:云计算可以通过动态伸缩满足用户动态变化的负载情况。本文研究的动态资源分配方法针对用户变化的负载需求进行资源分配,伸缩云的规模。
(4)可靠性:云计算还使用了多副本的数据容错等措施来保证服务的可靠性。
(5)通用性:云计算并不针对特定应用,可以同时支撑多种不同应用的运行。
(6)按需服务:用户按照自身需求从云资源池请求资源,并像水、电、燃气那样按照实际使用情况付费。
(7)廉价的特性:云计算与网格计算不同,采用了价格低廉的物理服务器作为计算节点,大幅降低了成本。而对于用户来说,使用云计算资源不仅可以减少庞大的购买硬件成本的幵销,还能免去管理和维护的人力成本。
第三章云计算中基于能耗的动态资源分配方法.........13
3.1虚拟化的服务器的能耗模型......13
3.2基于虚拟机实例运行截止时间的动态资源分配方法.......13
第四章云计算中成本约束的高效的故障探针选择方法........26
4.1基于贝叶斯网络的故障诊断.......27
4.2高效的主动探测的故障探针选择方法......28
第五章总结与展望.........37
5.1论文工作总结.........37
5.2论文研究存在的问题及展望.........38
第四章云计算中成本约束的高效的故障探针选择方法
为了提供强大的计算能力,云计算利用分布式的技术将大量的软硬件资源整合起来。分布式技术的实现以计算机网络为依托,因而计算机网络是云计算的基础。云计算的底层计算机网络的性能势必会对云计算的服务质量带来重大影响。如果管理好底层网络,保证服务的稳定性是云计算管理需要解决的问题之一。
4.1基于贝叶斯网络的故障诊断
贝叶斯网络,又称信度网络,是一种概率图模型,被广泛应用到各个领域。本文利用了贝叶斯网络建立网络被管实体,噪声以及故障探针之间的概率依赖模型。网络的被管实体是被管网络中的所有实体,包括了物理实体,如交换机和服务器等;以及逻辑实体例,如虚拟机实例等。探针可以是任何能够反应网络被管实体状态信息的端到端的服务。基于贝叶斯网络概率推理的故障诊断可以容忍网络噪声,在噪声环境中也能进行故障诊断。
图4-1是一个云计算网络对应的三层的贝叶斯网络模型。贝叶斯网络的底层是状态不依赖于其他节点的网络被管实体,例如物理服务器及路由器等。中间层包含了依赖于底层节点状态的被管网络实体,如虚拟机状态(状态依赖于其托管的物理服务器。贝叶斯网络的上层是可观察到的症状。
第五章总结与展望
5.1论文工作总结
云计算是新型的商业模式,将计算资源、存储资源、软件服务、开发平台等等软硬件资源通过互联网提供给用户。用户利用智能终端,通过互联网向云服务提供商按需请求资源,并按照实际使用情况付费,无需关心计算资源具体的物理位置或者计算资源是如果提供的。云计算正在给整个IT行业带来着巨大的转变,改变着软硬件资源的设计、交付和购买方式。
随着云计算的发展,云数据中心规模不断扩大,数据中心的网络也不断扩大而且变得越来越复杂。这对云计算的管理提出了更大地挑战。首先是能耗问题,庞大的数据中心面临着巨额的能耗开销。相关研究表明,能耗成本已经成为了数据中心的主要运营成本。此外是资源利用率低的问题。研究表明,Google数据中心的物理服务器大多数时间的CPU利用率都在50%以下,高负载的情况仅占少部分时间。同时,云计算越来越复杂和异构的底层网络带来的网络管理的挑战。如何保证网络的可靠性,在网络故障发生后迅速定位到根源故障是云计算的管理需要解决的问题。
为了解决以上的问题,本文进行了两个方面的研究。
首先本文设计了一种考虑能耗成本的动态资源分配方法。目前相关研究都采用了虚拟机迁移的手段,通过聚合分散的虚拟机资源来减少运行的物理服务器个数,达到节能的目的。然而虚拟机迁移会带来额外的能耗和性能成本。本文设计的动态资源分配方法,利用了虚拟机实例的运行截止时间,将运行截止时间相近的虚拟机实例放置在相同的物理服务器上。这样当没有后续的虚拟机实例放置到该服务器时,物理服务器能够尽早地关停或者切换至低功耗模式。本文还设计了一种随着时间动态轮转的虚拟机实例资源子池,用来帮助对虚拟机实例进行分组。只有处于同一资源子池的虚拟机实例能够放置在相同的物理服务器上,这样物理服务器处于未完全利用的时间不超过资源子池的时间窗口时长。
参考文献(略)