如何定义数据中心的可用性

2018-03-02  阅读次数:
数据中心是一种为IT设备提供稳定电源和适当环境操作条件的安全基础设施。通常情况下,数据中心运营将面临许多不利的因素,因此确保IT设备的电力可用性有着充分的理由。在此讨论一下如何定义数据中心的"可用性"。

  在数据中心领域,许多人通常将"可用性"和"可靠性"当作同一事物。此外,对于一些人来说,"冗余"一词似乎也意味着可用性的含义。

  可靠性不是可用性

  可靠性是系统或组件在规定的条件下在指定的时间内执行其所需功能的能力。组件的可靠性是基于称为平均无故障时间(MTBF)的统计概率的预测,通常以小时(例如100,000小时)来表示。而组件、设备或子系统的MTBF通常取决于数据中心设施的制造商。

\
  系统的可用性通常表示为时间的百分比。对于数据中心来说,它被称为"正常运行时间",用"9"的数量来量化。人们应该注意的是,普通的5个9(即99.999%)是最初由贝尔公司设置的系统可用性参考标准。

  然而,5个9听起来令人印象深刻,但是,如果以每年8,760小时为基础,5个9仍然意味着每年的停机时间为5.3分钟。即使6个9也相当于每年的停机时间为32秒。在当今的全天候运行的IT环境中,这显然是让组织不可接受的,因为IT电源只能容忍小于20毫秒的中断。而且,这并不一定意味着一年中只发生一次停电事故。这可能面临多次电力中断,每次虽然只有几秒钟,但累计起来一年的中断时间平均为32秒,显然这将面临灾难性的结果,但这在仍然是数学统计方面是精确的,并且符合6个9的要求。

  就可用性声明而言,重要的区别是预测值与历史值。在新建数据中心或其规划设计的情况下,它只能是一个参考,这可能基于其冗余设备级别和其容错控制系统的复杂性。相比之下,可用性的历史数字只代表过去的实际操作经验。但是,历史数据不能代表未来的表现。采用"N + 1"冗余设计的数据中心设施可能在五年的时间内没有任何中断,而采用"2N + 1"冗余设计的数据中心关键负载可能在运行的第一年就遭遇了电力中断。

  冗余代表部署额外的设备,如果主要电源或主要设备不可用时,可以通过故障或在维护期间提供所需的电力或冷却(定义为"N")设备。但是,这种简单的陈述并不能确保可以无缝地或即时地将负载转移到辅助设备或附加设备运行。

  举一个简单的例子,在市电中断期间,备用发电机启动并能够为负载供电,其启动的时间通常为10至30秒。显然,这对于IT设备不起任何作用,并且需要使用具有足够能量储备的UPS来提供不间断的电力。对于冷却系统而言,其可接受的时间根据冷却系统的类型而不同,对于低功率密度设备来说,可以坚持5到30分钟,对于功率密度非常高的IT设备来说,则只能坚持 15到60秒的时间。

  具备弹性的冗余设备来控制电力设备和冷却设备以支持IT负载。冗余设备本身并不排除发生瞬间或短暂的中断。人们使用容错设计和冗余设备(N + 1,N + 2等)和关键电源路径(N,2N等)的组合在可接受的时间范围内来提供电源和冷却(以及网络连接)服务,让IT设备在电力不中断的情况下运行。

  虽然拥有可靠性高的设备可以减少系统故障的机会,但不能确保更高的可用性。"可用性"的真正基础是冗余设备、容错设计以及电源和冷却系统的控制和传输时间的重要性。实际上,人们永远不要把数据中心的可用性寄托在设备的预计可靠性上。

  企业需要采取更全面的方法。绿色网格组织正在开发其数据中心可用性开放标准(OSDA)的首个版本。虽然并不打算与Uptime Institute Tier 4级别系统进行直接的竞争,但OSDA概念适用于电源设备和冷却系统的冗余级别的经典视图,但它也在整体方案中结合了多站点数据复制功能,以增加逻辑应用程序的可用性,而不仅仅是保持数据中心基础设施的现状。

  OSDA系统也更加灵活,因为它允许不同层次的电源和冷却设备实现冗余,而不是那些确实认识到某些组织(或某些应用)可能需要更高电气冗余的不太灵活的框架,例如采用2"N+1"冗余,其实只需实现"N+1"冗余。在完全开发之后,OSDA平台和工具集可用于评估多站点数据复制如何提供相同或更高级别的应用程序可用性(这就是为什么首先构建数据中心的原因),其规模为1-10,甚至在使用较低的冗余级别的数据中心基础设施时也是如此。

  很多企业的管理层认为云计算是一种"完美"解决方案,因为它将会消除与数据中心以及IT硬件相关的所有资本和运营成本以及人员成本。虽然它被盲目地推定为总是可用的,但实际上,云计算服务提供商的基础服务更加模糊或完全不透明。尽管如此,即使在今天,许多机构和商业组织也没有真正能够决定采用一种有意义的方法来评估云计算服务的可用性。

  计算架构已经变得非常活跃并且持续不断发展,而且很明显,大多数组织已经放弃建设或运营自己的数据中心设施。许多企业采用主机托管服务提供商提供的托管服务,他们可以使用基于冗余方法的传统数据中心基础设施方法对其进行评估。因此,采托管数据中心和云计算的混合方法已成为许多组织目前最喜欢的策略。

  很多人对长期实施的"数据中心可用性"的行业标准(由Uptime Institute创始人Ken Brill创建的四级Tier分类系统)提出一些不同的意见。虽然它仍然是一个有价值的(也是最基本的)概念和索引,但它只是评估数据中心设施基础设施的可用性,而没有评估IT硬件、软件以及数据本身的可用性。

  在虚拟化和数据复制的时代,其基于数据中心的"可用性评级"只是侧重于数据中心设施电力和制冷基础设施的冗余水平,虽然这也很重要,但它不应该成为评估计算系统和存储数据的可用性的唯一因素。

  因此,在规划和构建总体计算策略时,软件和应用程序需求的功能弹性应该是更重要的因素之一。例如,开放计算项目组织提出需要对IT硬件的物理、电气和逻辑方面以及电气设备、机械基础设施和建筑物本身设计进行全面的再思考。而这也是开放计算项目成员(如Facebook,Google和微软等超大规模运营商)运营的考虑因素。

  在许多情况下,它们的设备冗余级别相对较低(例如,某些系统为"N"或N + 1),但由于其软件故障切换冗余和多站点数据复制,其整体可用性很高。虽然这些需求的某些特征与传统企业组织有着根本的区别,但这些设计、设备和软件策略的某些方面,如果使用适当的话,应该加以考虑和采纳。

  最后但并非最不重要的一点是,如今比特币被人们认为世界未来货币的基础。大多数最新和最大的比特币数据中心运营模式似乎与传统数据中心设施相反。事实上,其数据中心许多设备都没有配备UPS、备用发电机,很少使用或没有冷却设备。他们的唯一目的就是使比特币采矿成本降到最低,一旦电力中断就可以停下来,而不会造成损坏,并在电力恢复后立即开始采矿。因此,其即使只有两个9的电力设施的可用性比大量附加初始成本和运营成本的、电源链完备的数据中心设施更具成本效益。

  尽管如此,越来越大的托管数据中心设施、云服务数据中心,以及混合解决方案将在未来几年占据主导地位,组织需要评估每个整体解决方案的长期成本和风险。在这个不断发展的计算环境中,构成"可用性"的内容是基于其目的而作出的最佳选择,而不是仅仅依赖于严格标准的传统的Tier 4级数据中心设施。