
第 1 章 引言
1.1 研究的背景和意义
1.1.1 研究背景
随着云计算、大数据、物联网的发展,以及“互联网+”和“绿色可持续发展”等国家战略的稳步实施,各种行业对数据的计算、存储、传输和应用等需求迅速增长。作为大多数企业信息载体,互联网数据中心(IDC)产业在过去十年中发展迅速。根据中国 IDC 圈实际调查数据发现,2013 年以来,我国数据中心总体规模快速增长,2012 至 2017 年复合增长率为 32%,继续保持快速增长趋势。同时,对于未来数据中心行业发展的趋势预估,未来十年发展将会呈现井喷态势。根据中国信息通信研究院发布的 2016 年数据中心白皮书的调查显示,2016年全球 IDC 市场规模约 540 亿美元,中国市场约 946 亿人民币,未来 5-10 年数据量仍将持续高速增长,预计到 2020 年,全球数据中心市场规模接近 900 亿美元,中国市场超过 2000 亿人民币。
1.1 研究的背景和意义
1.1.1 研究背景
随着云计算、大数据、物联网的发展,以及“互联网+”和“绿色可持续发展”等国家战略的稳步实施,各种行业对数据的计算、存储、传输和应用等需求迅速增长。作为大多数企业信息载体,互联网数据中心(IDC)产业在过去十年中发展迅速。根据中国 IDC 圈实际调查数据发现,2013 年以来,我国数据中心总体规模快速增长,2012 至 2017 年复合增长率为 32%,继续保持快速增长趋势。同时,对于未来数据中心行业发展的趋势预估,未来十年发展将会呈现井喷态势。根据中国信息通信研究院发布的 2016 年数据中心白皮书的调查显示,2016年全球 IDC 市场规模约 540 亿美元,中国市场约 946 亿人民币,未来 5-10 年数据量仍将持续高速增长,预计到 2020 年,全球数据中心市场规模接近 900 亿美元,中国市场超过 2000 亿人民币。
目前中国有两种主要的数据中心类型,一种是自用数据中心:包括中国电信、中国联通、中国移动、金融企业等大型国企建立自己的数据中心,主要用于国家政府、金融和国有制造业,它在国家政府、资金、技术和人力方面都具有强大的资源优势。另一种是第三方数据中心:主要指为互联网企业、中小企业服务而建设的商用数据中心,它们为客户提供高质量的数据中心运营服务,由于是商业化、市场化的运营模式,为了适应市场严峻的竞争环境,商业数据中心必须具备较强的运营管理水平。
..........................
1.2 国内外研究现状
1.2.1 可用性问题研究
黄锴《美国数据中心标准 ANSI/BICSI 的基础设施可用性类别综述》[14](2014)通过研究美国数据中心标准 ANSI/BICSI,为了表明数据中心基础设施可用性的特征,使用了五个操作等级和五个风险等级来形成二维基础设施可用性类别。这种分类方法更加科学,更具包容性。对于各规模数据中心均能适用,尤其对于数据中心初期建设阶段进行风险控制和设计优化后,对表征施工建设的可用性类别给出了多因素的组合考虑。同时,它也为从事数据中心设计、建设、运营和维护行业的人员提供借鉴和参考。
殷平《数据中心研究(6):可用性和可靠性》[12](2017)本研究准确地将可用性功能定义为可靠性、可维护性和维护支持的综合反映,这是系统在调查期间正常运行的概率或时间占用的预期值。它是衡量基础设施在投入使用后实际性能的指标,是基础设施或系统可靠性、可维护性和维护支持的综合特征。
1.2.1 可用性问题研究
黄锴《美国数据中心标准 ANSI/BICSI 的基础设施可用性类别综述》[14](2014)通过研究美国数据中心标准 ANSI/BICSI,为了表明数据中心基础设施可用性的特征,使用了五个操作等级和五个风险等级来形成二维基础设施可用性类别。这种分类方法更加科学,更具包容性。对于各规模数据中心均能适用,尤其对于数据中心初期建设阶段进行风险控制和设计优化后,对表征施工建设的可用性类别给出了多因素的组合考虑。同时,它也为从事数据中心设计、建设、运营和维护行业的人员提供借鉴和参考。
殷平《数据中心研究(6):可用性和可靠性》[12](2017)本研究准确地将可用性功能定义为可靠性、可维护性和维护支持的综合反映,这是系统在调查期间正常运行的概率或时间占用的预期值。它是衡量基础设施在投入使用后实际性能的指标,是基础设施或系统可靠性、可维护性和维护支持的综合特征。
徐泽中《IT 系统服务可用性管理过程分析》[21](2011)本研究针对工商银行管理体系的研究提出可用性管理过程大部分的问题都与生产运行组织结构有关,如果正在运行的组织结构存在缺陷,则会直接影响可用性管理。在缺乏整体协调的情况下,通常管理人员只关注于 IT 系统部分子系统的可用性管理,却低估所需的资源、缺乏有效措施和告知工具等情况都会导致可用性管理缺陷。
.............................
第 2 章 相关概念及研究方法
2.1 数据中心基本概念
2.1.1 数据中心
数据中心(IDC)全称为互联网数据中心。即企业利用现有的互联网通信线路和带宽资源,建立标准化的专业级计算机房环境,为企业和政府提供服务器托管、租赁和相关的增值的综合服务,并提供全面的解决方案,使得企业和个人能够通过网络快速开展业务,专注于核心业务的规划和发展,减少 IT 方面的顾虑。因此数据中心不仅是网络概念,还是服务概念。
2.1.2 数据中心基础设施管理概念
通常数据中心基础设施包括:供配电系统、空调与制冷系统、自控(BA)系统、动环监控系统、安防系统、消防系统、防雷接地系统。
数据中心基础设施作为运维管理工作基础层,管理核心内容是为了保障数据中心机房 IT 设施正常运行,对数据中心基础设施进行有效管理,提供不间断的供电、制冷、自动控制、环境监控、以及可靠的安防、消防服务,保障机房设施运行稳定。一般通过制定合理的维护保养计划,延长设施生命周期,降低故障率,并且确保在机房突发设施故障,影响机房正常运作情况下,可及时得到设施服务商或机房服务维护人员的产品维修和技术支持,并快速解决故障。
........................
2.2 研究所需的方法
2.2.1 层次分析法
层次分析法意味着将复杂的多目标决策问题作为一个系统,并将目标分解为多个目标或标准。此外,它被分解为多个级别的多个指标、标准或约束,并且通过定性指标模糊量化方法计算分级单个单位权重的总顺序,将决策制定为多目标、多指标和多种情景的系统方法。层次分析过程是根据总体目标、子目标、评估标准和具体的准备计划将决策问题分解为不同的层次结构,然后用求解判断矩阵特征向量的办法,发现每个级别的每个元素都比先前级别的元素具有更高的优先级,最后对每种替代方案的替代目标的最终权重进行加权和求和的方法,此最终权重最大者即为最优方案。层次分析的过程更适合具有分层和隔行评估指标的目标系统,目标难以定量描述决策的问题。
层次分析法步骤:
(1)建立层次结构模型
决策目标、决策因素和决策对象根据它们之间的相互关系分为最高层、中间层和最底层,层次结构图最高级别是指决策的目的和要解决的问题。最低层是指决策时的备选方案。中间层是指考虑的因素和决策的标准,对于两个相邻层,上层称为目标层,下层是因子层。
(2)构造判断矩阵
在确定每个级别的因子之间的权重时,如果它只是定性结果,通常不容易被其他人接受。因此,提出了均匀矩阵法,即并非所有因子都进行比较,但两者相互比较,在这种情况下采用相对比例,通过比较尽可能因素与不同属性的难度来提高准确性。对于某个标准,将其下的方案进行比较,并根据其重要性对等级进行评级
........................
.............................
第 2 章 相关概念及研究方法
2.1 数据中心基本概念
2.1.1 数据中心
数据中心(IDC)全称为互联网数据中心。即企业利用现有的互联网通信线路和带宽资源,建立标准化的专业级计算机房环境,为企业和政府提供服务器托管、租赁和相关的增值的综合服务,并提供全面的解决方案,使得企业和个人能够通过网络快速开展业务,专注于核心业务的规划和发展,减少 IT 方面的顾虑。因此数据中心不仅是网络概念,还是服务概念。
2.1.2 数据中心基础设施管理概念
通常数据中心基础设施包括:供配电系统、空调与制冷系统、自控(BA)系统、动环监控系统、安防系统、消防系统、防雷接地系统。
数据中心基础设施作为运维管理工作基础层,管理核心内容是为了保障数据中心机房 IT 设施正常运行,对数据中心基础设施进行有效管理,提供不间断的供电、制冷、自动控制、环境监控、以及可靠的安防、消防服务,保障机房设施运行稳定。一般通过制定合理的维护保养计划,延长设施生命周期,降低故障率,并且确保在机房突发设施故障,影响机房正常运作情况下,可及时得到设施服务商或机房服务维护人员的产品维修和技术支持,并快速解决故障。
........................
2.2 研究所需的方法
2.2.1 层次分析法
层次分析法意味着将复杂的多目标决策问题作为一个系统,并将目标分解为多个目标或标准。此外,它被分解为多个级别的多个指标、标准或约束,并且通过定性指标模糊量化方法计算分级单个单位权重的总顺序,将决策制定为多目标、多指标和多种情景的系统方法。层次分析过程是根据总体目标、子目标、评估标准和具体的准备计划将决策问题分解为不同的层次结构,然后用求解判断矩阵特征向量的办法,发现每个级别的每个元素都比先前级别的元素具有更高的优先级,最后对每种替代方案的替代目标的最终权重进行加权和求和的方法,此最终权重最大者即为最优方案。层次分析的过程更适合具有分层和隔行评估指标的目标系统,目标难以定量描述决策的问题。
层次分析法步骤:
(1)建立层次结构模型
决策目标、决策因素和决策对象根据它们之间的相互关系分为最高层、中间层和最底层,层次结构图最高级别是指决策的目的和要解决的问题。最低层是指决策时的备选方案。中间层是指考虑的因素和决策的标准,对于两个相邻层,上层称为目标层,下层是因子层。
(2)构造判断矩阵
在确定每个级别的因子之间的权重时,如果它只是定性结果,通常不容易被其他人接受。因此,提出了均匀矩阵法,即并非所有因子都进行比较,但两者相互比较,在这种情况下采用相对比例,通过比较尽可能因素与不同属性的难度来提高准确性。对于某个标准,将其下的方案进行比较,并根据其重要性对等级进行评级
........................
3.1 G 数据中心概况 ................................... 16
3.2 影响 G 数据中心基础设施可用性要素识别 ....................... 16
第 4 章 提高 G 数据中心基础设施可用性管理体系研究 .......................... 31
4.1 提高 G 数据中心基础设施可用性目标鱼骨图 ......................... 31
4.2 G 数据中心基础上设施管理体系优化 .............................. 32
第 5 章 G 数据中心基础设施流程优化的效果评价 ................................. 45
5.1 优化后 G 数据中心故障 MTTF 效果对比分析 ............................. 45
5.2 优化后 G 数据中心故障 MTTR 效果对比分析 .............................. 47
第 5 章 G 数据中心基础设施流程优化的效果评价
5.1 优化后 G 数据中心故障MTTF 效果对比分析
管理流程优化后将 2018 年 G 数据中心基础设施归因故障数量与 2017 年数据进行全面统计、比较、分析,对比优化前后两数据者的差异性,通过定量分析对比流程优化对 MTTF 改善效果。
通过图 5.1 中分析可以明显看到,2018 年 G 数据中心基础设施各系统故障发生数量相对于 2017 年明显得到显著改善,其中供配电系统故障数量下降30.69%,空调制冷系统故障下降 30.23%,自控系统故障下降 47.22%,监控系统故障下降 14.29%,说明通过对于基础设施各项管理优化对于各系统设施故障改善效果十分显著。
管理流程优化后将 2018 年 G 数据中心基础设施归因故障数量与 2017 年数据进行全面统计、比较、分析,对比优化前后两数据者的差异性,通过定量分析对比流程优化对 MTTF 改善效果。
通过图 5.1 中分析可以明显看到,2018 年 G 数据中心基础设施各系统故障发生数量相对于 2017 年明显得到显著改善,其中供配电系统故障数量下降30.69%,空调制冷系统故障下降 30.23%,自控系统故障下降 47.22%,监控系统故障下降 14.29%,说明通过对于基础设施各项管理优化对于各系统设施故障改善效果十分显著。

.......................
第 6 章 总结与展望
6.1 基本结论
本文主要研究了提高 G 数据中心基础设施管理可用性问题,是基于数据中心企业高速发展的现状,对数据中心基础设施可用性提出了非常高的要求的背景下,以管理流程优化为指导思想,通过 PDCA 循环法、鱼骨图要因分析法、以及 SWOT 分析法的先进理念,以综合评价 AHP 层次分析法为主要评价手段,应用于本文选取的 G 数据中心基础设施管理的研究中。文章首先介绍了运用理论的原则及研究所需的方法,随后基于影响 G 数据中心基础设施可用性要素进行逐项分析,确定主要影响要素,然后对 G 数据中心针对以上要因在设施管理、巡检管理、应急管理、服务商管理方面存在的管理缺陷,有针对性地进行了补充和优化,并且通过优化后 2018 年 G 数据中心基础设施管理的各项指标与 2017年进行比对,对实施效果进行了客观评价,本文得出以下结论:
6.1 基本结论
本文主要研究了提高 G 数据中心基础设施管理可用性问题,是基于数据中心企业高速发展的现状,对数据中心基础设施可用性提出了非常高的要求的背景下,以管理流程优化为指导思想,通过 PDCA 循环法、鱼骨图要因分析法、以及 SWOT 分析法的先进理念,以综合评价 AHP 层次分析法为主要评价手段,应用于本文选取的 G 数据中心基础设施管理的研究中。文章首先介绍了运用理论的原则及研究所需的方法,随后基于影响 G 数据中心基础设施可用性要素进行逐项分析,确定主要影响要素,然后对 G 数据中心针对以上要因在设施管理、巡检管理、应急管理、服务商管理方面存在的管理缺陷,有针对性地进行了补充和优化,并且通过优化后 2018 年 G 数据中心基础设施管理的各项指标与 2017年进行比对,对实施效果进行了客观评价,本文得出以下结论:
(1)PDCA 循环原理在 G 数据中心基础设施管理的的应用,通过对采集基础设施定量数据,运用维护数据劣化趋势分析故障数据分析,观察其趋势的发生,判断设施是否劣化,来决定维护标准制定是否能满足当前设施的运行状态,使得标准能随着设施的全生命周期进行适当的调整,持续性指导进行针对性的维护工作,对于提高因设备质量、设备老化造成基础设施可用性降低的改善效果是十分显著的。
(2)PDCA 循环原理在 G 数据中心基础巡检管理的的应用,流程上对故障发生的原因进行分析,持续对巡检标准偏差进行优化,从根本提高巡检异常及时发现率,降低了巡检不周造成的设备故障,同时通过对巡检数据的分析也可以避免效率的降低,通过 PDCA 持续优化,形成良性循环,对提高由于巡检不周造成基础设施可用性降低的改善效果是十分显著的。
参考文献(略)
参考文献(略)