摘 要
系統模塊化是數據中心基礎設施設計的重要理念和基本策略,數據中心設計建造中的很多問題都與系統模塊化程度有關。模塊化以及與之關系緊密的標準化,為數據中心帶來了廣泛的好處,它不僅簡化了從初始規劃到日常操作的每一個流程,還顯著改進了數據中心商業價值的所有三個主要組成部分 – 可用性、適應性和總擁有成本。 模塊化 UPS 是可用性級別最高的模塊化系統,引領著數據中心基礎設施設計建造的理念和方向。
關鍵詞:數據中心、系統模塊化和標準化、模塊化UPS
一、可修復和可快速修復功能是提高系統可用性的關鍵
現代數據中心基礎設施設計和運行的一個最基本也是最重要的要求是系統必須能連續工作。而工作連 續性的程度通常是用系統的可用性來描述的。系統可用性 A(t)的定義為:電子系統在使用過程中(尤其在 不間斷連續使用的條件下)可以正常使用的時間與總時間之比??捎眯允怯煽煽啃詤担停裕拢疲ㄆ骄鶡o 故障時間)和故障后平均修復時間參數 MTTR 表示的,即:
可靠性MTBF愈高,系統的可用性愈高,這是不言而喻的事,但設備的可靠性是有限的,特別是由若 干不同功能不同廠家的設備組成的復雜的系統,可靠性很難達到設計要求的水平,使數據中心基礎設施特 別是供電系統變得很脆弱。于是,設計者和用戶很自然的想到必須從系統的可修復和可快速修復上找出路, 因為盡管系統和設備的可靠性達不到要求的高度,故障隨時都可能發生,但只要系統中的所有設備故障后 都是可修復并可快速修復的,故障后平均修復時間MTTR數值很小甚至趨近于零,那么系統的可用性同樣 可以很高。
可修復和可快速修復成為數據中心用戶和設計者在系統設計時追求的首要目標。只要組成系統的所有 具備獨立功能的子系統,在系統投入運行后都是可拆卸、可移動、可更換的,那末這個系統必然是可修復的。
可快速修復通常指可無工具拆卸和可拔插更換子系統和設備。但是,如果功能相同的兩個設備可冗余 配置,當一個設備故障停止運行后,另一個與之冗余并機的設備可繼續工作而保證系統正常運行,那末, 對于整個系統而言,我們可以認為冗余并機環節沒有發生造成系統宕機的故障,可靠性很高;也可以認為 雖然設備發生故障,但是在修復過程中沒有影響整個系統正常運行,修復時間為零。
以上設計理念已在數據中心基礎設施用戶和設計者中取得了最廣泛的共識,并在系統方案設計和建造 中取得了廣泛的應用和顯著的效果。
二、"系統模塊化"是可修復和可快速修復的根本條件
我們把具有獨立功能,在系統中可整體安裝、拆卸、移動、更換的子系統稱之為模塊,那么上面的設 計理念可概括為以下三句話:
1、現代的數據中心要求基礎設施必須是一個能連續工作的系統;
2、一個能連續工作的系統必然是可修復和可快速修復的系統;
3、一個可修復和可快速修復的系統,組成該系統的所有子系統必然要具備模塊化特征;
模塊化即將完整的產品或流程按功能分成小塊,即模塊。根據上面講的,模塊的特征應該是: ?
模塊是系統中一個具有獨立功能和可獨立運行的單元;
結構上可整體安裝、拆卸、更換、移動;
相同單元可冗余并機運行。
在系統中,根據需要對這些模塊進行組裝,以產生原始產品/流程的各種變體。以我們很熟悉的手電筒 電池為例:可以將不同數量的電池(模塊)進行組合,從而獲得不同功率的電源。在 IT 設備中,刀片式 服務器和 RAID 陣列也是模塊化的典型例子,將多個設備組合在一起獲得不同數量的服務器或不同大小的 存儲容量。模塊無需完全相同:以 Lego? 積木為例,這些模塊在某些方面相同,某些方面卻不同,譬如, 其顏色、大小和形狀各不相同,但連接方式和尺寸均采用標準形式,以便可以將積木(模塊)組裝成一個 集成系統。不同的模塊化系統可以根據所需的功能劃分目標,將不同數量的相同模塊或不同模塊(表示不 同的標準化級別)并入集成的模塊或系統中。
數據中心基礎設施是集成了多種功能的復雜系統,需要進行仔細的工程設計,以按照在標準化級別與 用戶靈活性之間取得最佳平衡的方式進行模塊化。系統中存在各種級別的模塊化設計的可能性。下面是一 些示例:
可互換的 UPS 功率模塊和電池模塊:在功率、冗余程度和運行時間方面均實現了可擴展性,而 且能夠進行熱插拔,從而在不需要停止系統運行的條件下進行維修;
標準化的模塊化布線:將房間布線細分為行級模塊或機架級模塊,避免了混亂并易于出錯的布線 狀態,并簡化和加速了斷開-重新排列-重新連接的流程。模塊化配電系統的方式很多,可以采用為 整行負載供電的機架大小的模塊化設備,也可以采用服務于單個機架的電源插板(機架PDU);
機架級通風裝置:將房間氣流細分為各機架局部控制,以便對高溫區域進行精確制冷;
高密度機架系統:將機架、配電系統和制冷系統集成為一個獨立的封閉"空間",以冷卻和隔離發熱 量密集的 IT 設備(此時,"模塊"指集成的整個系統)。
根據模塊的特征,在數據中心基礎設施中,一根線纜、一臺整機UPS或空調機,都是一個模塊,但是 由于設計的疏忽,有時它們在系統中卻失去了模塊化功能:一根線纜可能因為數量多并相互擠壓而無法識 別和更換,以至于一個老鼠啃壞一條線纜的絕緣就會使系統癱瘓而且不能迅速恢復;一臺大型UPS或空調 機因走道空間狹窄或搬運工具進不去而不能運出更換;一臺裝入機柜的變壓器故障后因工具無法在機柜內 施展而無法更換等,這些事例屢見不鮮,使具有這種隱患的系統也就不再具備可修復或可快速修復的功能。
這里引伸出的是一個新的概念-系統模塊化概念。在一個復雜的系統中,盡管組成系統的所有子系統都 是模塊化的,但是由于缺乏系統模塊化設計,使部分模塊失去可更換、可移動的功能,最終使整個系統變 成一個不可修復或不可快速修復的系統,可用性大大降低。
"系統模塊化設計"已經成為數據中心設計建造必須遵守的原則。模塊化使一切事情變得更加便利、更可 預測、更為經濟、更易于理解以及更加安全。"系統模塊化設計"觀念在行業中已上升到一個新的高度,成 為了一種富有創造性并具突出戰略意義的設計哲學。
三、模塊化系統的優勢
從上面所述可知,模塊化系統設計是建造可修復和可快速修復系統的基礎,采用標準化結構和連接方 式的模塊化組件使一切變得更容易、更迅速,且成本更低。從供應商的制造與庫存,到設計與工程規劃過 程,再到客戶現場的安裝與運營,無不如此。以下幾點突顯了模塊化系統的優勢: ?
模塊化系統是可擴展的:模塊化的基礎設施可以根據當前的 IT 需求進行部署,并且能在以后根 據需要添加更多組件,這種"系統規模塊化"能力顯著降低了總擁有成本;
模塊化系統是可更改的:在系統中可通過模塊的重新配置,為滿足不斷變化的 IT 需求提供了極大的靈活性;
模塊化系統是可移植的:在安裝、升級、重新配置或移動模塊化時,獨立組件、標準接口以及易 于理解的結構既節省了時間又節約了資金;
模塊化組件是可替換的:發生故障的模塊可以很容易被換下,以便進行升級或修理,而且通常無 需停止系統運行;
模塊化可提高故障修復的質量:模塊的可移植和可插拔特性使得很多工作可以在工廠進行,既包 括交貨之前(如配電設備的預先布線),也包括交貨之后(如電源模塊的修理)。從統計學角度 上分析,同樣的工作,在工廠內完成要比在現場操作的再故障率低得多,例如,與在現場修復的 UPS 電源模塊相比,在工廠修復的模塊在引起斷電、發生新的故障或無法恢復到滿負荷工作狀 態方面的概率要低上百倍。
模塊化是標準化的基礎,是標準化不可或缺的基本條件。幾乎所有好處都能以某種方式追溯至標準化 的兩個強大的基礎屬性:模塊化構件結構和提高的人類學習能力,如圖1所示。
正是這兩個特征產生了遍及整個基礎設施的好處,為基礎設施的幾乎每個方面帶來了累積的正面影 響。
人類學習-理解的力量:
模塊化提高了設備的效率,易于理解性則提高了人的效率。模塊化標準化系統在各個層面上使人類的 學習更加方便。事物不僅更易于理解,而且可預測性和可重復性也更強,因而發生問題的概率更低,并且 當發生問題時更容易識別。
事物越易于理解、可預測性越強,便越容易解釋、編制文檔、操作、查明問題并修復。這些效應往往 互為基礎,從而使安裝、維護工作可以做到:
減少人為錯誤:標準化對于人類學習最突出的貢獻莫過于減少了數據中心中的人為錯誤,從標準 化模塊化組裝流程到系統的故障診斷、文檔編制、培訓等都更加簡單、有效,從而使員工更熟練、 更不容易出錯;
預見問題:對工作原理的了解,再加上此類事物的標準化程序(如設備監控和預測性維護程序), 形成了一個足以應對那些"意外"事故的強大防御手段;
提高效率:由于這些學習效果相互影響并互相推動,效率得到了全面提高。員工的知識越全面, 在相關問題上所花費時間的利用率就越高。人為錯誤的減少不但減少了在糾正人為引發問題上所 需的時間,而且也減少了答復與此類問題有關的電話幫助熱線的時間。使人力資源得到更好地釋 放和合理使用;
批量生產的優勢:部件和流程的標準化模塊化使批量生產成為可能,批量生產的優勢體現在以下 幾個方面:成本更低、質量更高、更易于維修、產量更大、交貨速度更快。
四、模塊化系統對基礎設施商業價值的貢獻
如何衡量和評估數據中心基礎設施的商業價值?由于基礎設施的主要功能是確保 IT 設備的持續運 行,所以其商業價值有三個因素組成:
可用性:可用性越高,商業價值也越高;
適應性:快速響應變化的 IT 需求成為能否實現數據中心的設計功能和預期目標的關鍵;
總擁有成本:在使用壽命期間購買和運行的總成本。
這三個組成部分與商業價值的關系如圖2所示。
能夠提高可用性和適應性并降低總擁有成本的事物即是基礎設施商業價值的驅動因素。在這種客觀的 因果關系中,標準化和模塊化所產生的好處可同時驅動所有這三個"性能參數"。
1、模塊化和標準化對提高可用性的作用:
模塊化和標準化對提高可用性的作用表現在提高設備可靠性、降低平均修復時間、減少人為錯誤等三 個方面。
(1)提高設備可靠性:
標準化模塊化可明顯地提高設備的可靠性:
批量生產可降低了生產缺陷;
模塊化組件可以返回制造商處進行維修,可極大地提高了維修質量;
采用標準化連接的模塊化系統可以按照與現場同樣的方式在工廠內進行配置,因而可以在工廠內進行 預先調適和測試,以發現缺陷;
標準化的模塊化組件更易于實現內部冗余配置以及熱插拔更換功能;
采用標準化的設備監控系統后,可以更方便地進行前瞻性維護,以便在逐步演變為重大損失之前識別 問題;
降低對容易出現人為錯誤的預防性維護的依賴性。
(2)降低平均恢復時間 (MTTR):
模塊化標準化對降低平均恢復時間 (MTTR)是最明顯不過的:
模塊的熱插拔功能可以迅速將發生故障的模塊化組件拔下,以進行更換,因此,不存在因等待修理而 耽擱系統恢復的情況;
模塊化標準化令系統更容易理解與操作,加快了問題的診斷速度,并提高了用戶自己進行診斷與更正 的可能性。
(3)減少人為錯誤:
迄今為止,在提高可用性的所有途徑中,減少人為錯誤是最行之有效的手段。隨著設備與程序的模塊 化標準化,功能更加透明,日常操作更加簡單并更容易學習,一切事物都按照預計的方式運行 – 所有這 些,都降低了發生從輸入錯誤命令到拔錯插頭的任何故障的可能性。
2、模塊化和標準化對提高適應性的作用
模塊化標準化對提高適應性的作用表現在加快部署速度、增強可擴展的能力;增強可重新配置的能力 等三個方面:
(1)加快部署速度:
模塊化標準化可明顯地加快部署速度:
加快規劃與設計速度,可根據設計目標以合理的方式配置系統結構,包括模塊單元的物理排列,僅選 用滿足當前 IT 需求的設備數量與類型;
模塊化結構所固有的設計靈活性,可及時地滿足特殊的基礎設施需求;
標準化批量生產的設備可以實現現貨供應,因而提高了交貨速度;
標準化的連接方式可減少現場配置與連接的工作量,加快安裝速度;
標準化模塊可以采用與現場一模一樣的方式在工廠進行連接并預先測試,系統的調試速度也提高了;
僅根據當前的 IT 需求進行設計,因而只需部署比典型的傳統系統設備數量更少的小型基礎設施,進 一步縮短了各個部署階段所需的時間。
(2)增強可擴展的能力:
采用模塊化構建模塊化的結構,系統功能可以逐塊獲得,因而可使從配線柜到大型數據中心的任何大 小的 IT 空間的配置達到最佳狀態。更為重要的一點是,可以只按照啟動時所需的 IT 需求來設計相應的 基礎設施。而后,隨著 IT 需求的增長,可以添加更多的構造模塊,而無需重新對整個系統進行工程設計, 也無需關閉關鍵設備。這種"系統規模優化"策略顯著降低了數據中心在使用壽命期間的成本。
(3)增強可重新配置的能力:
IT 的更新周期通常為二年至三年,因此,重新配置、升級或移動能力在基礎設施適應性中占據著重要 的地位。模塊化組件可以拔下、重新排列并重新連接。除了因商業需要而進行的重新配置之外, IT 設備 的功率密度隨著其物理尺寸的不斷縮?。ㄈ绲镀椒掌鳎┒€定增長,因此,也需要定期重新配置機架、 供電系統和制冷系統。此外,可熱插拔的模塊化組件為重新配置不同級別的冗余、不同電壓或不同插頭類 型提供了可能性。不僅是模塊化結構簡化了斷開連接、移動并重新連接這一物理過程,除此之外,制造商 對設備模塊化的仔細設計也將重新設計的需要降至最低,并最大限度地提高了將現有設備重復用在新配置 中的能力。
3、模塊化和標準化對降低總擁有成本的作用
模塊化和標準化對降低總擁有成本的作用表現在降低投資成本、降低非能源運營成本、降低能源成本 等三個方面:
(1)降低投資成本:
標準化的模塊化結構從以下兩個主要方面降低了投資成本:
采用模塊化結構后,基礎設施的大小緊密配合當前的 IT 需求而規劃,而不是根據最大的規劃需求來 構建初始容量;
簡單明了的結構簡化了從規劃到安裝的整個部署過程中的每個步驟,這種簡化不僅縮短了每個階段所 需的時間,而且往往減少了尋求外部幫助的需要。例如,機架級的標準化的模塊化配電系統即從可擴 展性和簡單性兩方面節約了成本:可以只為安裝的機架部署電源和電纜,而無需為整個房間布線,因而減少了工作量。同樣,集成了電纜與空氣流通裝置的標準化的模塊化機架設備為基礎設施提供了可 擴展性,并簡化了設計和安裝過程,將設計咨詢和定制安裝服務的需求降低最低。
(2)降低非能源運營成本:
設計變得簡單、易于學習,意味著培訓的效率可以更高,運營/維護程序也可以更高效并減少出錯的幾 率。標準化模塊化設備與程序的更易于理解,也意味著更多的維護工作可以由 IT 人員來完成,而無需供 應商提供維護。采用標準化的設備監控系統后,借助于易于掌握的管理工具,可以更方便地進行預測性維 護,以便在逐步演變為重大損失之前識別問題。標準化的模塊化組件可以直接拔下以進廠維修,這比在現 場維修更為可靠,成本也更低。由于可用性的整體提高,尋求熱線幫助以解決與停機有關的問題的需求也 大為減少了。
(3)降低能源成本:
數據中心在使用壽命期間的電力成本是 TCO 中最大的一項。按照現有的 IT 需求規劃基礎設施,并 根據 IT 需求的增長添加新的組件,這種方式使用戶只需為所需的設備提供配電和制冷。在數據中心的使 用壽命期間,因此而節約的電力成本非??捎^。模塊化UPS 設計使得UPS 的容量與負載需求更為匹配, 從而提高了 UPS 的工作效率并減少了實現冗余所需的 UPS 模塊的容量。模塊化制冷設計,如基于機架 的空氣分配單元,使氣流組織更準確,從而提高了制冷效率,進而減少了制冷設備所消耗的能源。
五、"模塊化UPS"是最高級別的模塊化系統
前面講到可修復和可快速修復功能是提高系統可用性的關鍵,"系統模塊化"是可修復和可快速修復的 根本條件,而UPS又是整個供電系統中可靠性最薄弱的環節,于是,數據中心設計者首先把模塊化設計理 念用在UPS供電系統的設計中,把冗余容錯和插拔修復技術同時應用到一臺UPS中,這就是當前已在市場 上廣泛推廣應用的"模塊化UPS"。
1、"模塊化UPS"是最高級別的模塊化系統
系統的冗余程度差別以及是否有插拔修復功能,決定了系統的可用性級別,根據前面的介紹,我們可 將模塊化系統分為四個等級,如圖3所示。
(1)模塊化系統:系統中的所有子系統都具備模塊化特征,例如供電及制冷設備、線纜、配電開關等 都有獨立的功能,且在結構上可整體安裝、拆卸、更換、移動;
(2)具有插拔功能的模塊化系統:系統中關鍵的子系統具有插拔修復功能,例如擴容模塊化UPS、保險 絲、無工具安裝線纜及其它有可插拔安裝功能的模塊化子系統;
(3)具有冗余容錯功能的模塊化系統:系統中關鍵的子系統具有冗余容錯功能,例如(N+1)UPS、(N+1) 空調及其它有冗余配置功能的模塊化子系統;
(4)同時具有插拔功能和冗余容錯功能的模塊化系統:系統中關鍵的子系統同時具有插拔修復功能和冗 余容錯功能,例如(N+1)模塊化 UPS
顯然,模塊化UPS設備屬于第四級,由于系統中的關鍵子系統同時具有插拔修復功能和冗余容錯功能, 在下面的分析中可以看出,它的可用性可以達到很高的水平。
2、模塊化 UPS 的系統配置及運行模式
模塊化 UPS 可以認為是一個具有多重冗余結構的可擴充的模塊化系統,圖 4 是其結構示意圖。
系統主要包含以下組成部分:輸入配電、輸出配電、N+1 功率轉換模塊、N+1 電池模塊、1+1 控制管 理模塊、集中靜態旁路、維護旁路。
功率模塊在物理結構上是一個完整的可插拔更換的單元,應具備完整的 AC/DC 和 DC/AC 轉換以及 不停電供電控制功能,在配置輸入輸出配電和相應電壓的電池后,就是一臺 UPS;
把電池分組是為了實現冗余功能,總容量由整臺模塊化 UPS 設計容量確定,在物理結構上每組電池 構成一個獨立的可插拔更換的單元;集中靜態旁路在物理結構上也是一個可整體安裝更換的單元,其容量 等于整臺模塊化 UPS 設計輸出容量;
控制管理模塊也是可插拔安裝更換的,其功能主要有三個:第一個是整個系統工作狀態信息的收集, 如輸入、輸出電壓等;第二是整個系統功能的控制,如系統并聯邏輯控制,切入、切出旁路等;第三是作 為系統與外界通信的接口。
模塊化 UPS 的運行模式和控制過程有以下六種情況:
(1)正常運行:所有模塊的整流單元并聯運行,將輸入交流電轉換為直流電,再向逆變單元供電的 同時保證電池組的浮充。所有的逆變單元并聯運行,將直流電轉換為高質量的交流電輸出輸出,電壓同頻、 同相位、同幅值,均分負載電流;
(2)市電正常,如果一個功率模塊發生故障,在智能管理模塊的并聯邏輯控制命令的調控下,自動 將該功率模塊關機的同時,把該模塊輸入輸出主電路的繼電開關斷開,系統繼續正常運行,負載由并聯的 其他功率模塊供電,只不過系統不再具備冗余功能。此時系統給出報警信號,已從系統脫開的功率模塊可 用插拔方式在數分鐘內更換;
(3)市電正常時,在系統中已有一個功率模塊因故障而處于離線待插拔更換而系統已不具備冗余功 能的情況下,如果此時又有一個功率模塊發生故障或者負載出現過載情況,則系統自動轉集中靜態旁路運 行狀態,并機邏輯控制命令會使所有功率模塊輸入輸出主電路繼電開關斷開而由市電直接向負載供電;
(4)在市電和 UPS 系統都正常情況下,如果負載發生過載或者短路,當負載超過系統額定輸出容量, 而小于全部功率模塊輸出功率的總和時,系統可繼續正常運行,同時發出報警信號,說明此時系統已不再 具備冗余功能;如果負載過流量超過所有功率模塊輸出額定功率的總和,則并機邏輯命令會使所有功率模 塊輸入輸出主電路繼電開關斷開并自動轉系統靜態旁路,由市電直接應付過流的負載;
(5)市電故障:在檢測到市電故障的情況下,整流器能夠自動的將直流母線與交流輸入相隔離,同 時,電池組進入放電狀態,由逆變器保證負載的連續運行;一旦市電恢復, UPS 能夠在不需要人為干預 的情況下,自動恢復到正常運行模式;
(6)手動維修旁路,完整的 UPS 應包含一個手動維修旁路開關,以便在整個系統故障或者需要進 行緊急維修時,將系統轉維修旁路。
3、N+1 模塊化 UPS 與單機 UPS N+1 系統的相同與不同之處
把冗余容錯和模塊化快速插拔修復技術同時應用到一臺UPS中,這就是"模塊化UPS"。模塊化UPS實 質上是集成的N+1冗余并機系統與模塊化體系結構的融合,如圖5所示。
N+1 模塊化 UPS 與單機 UPS N+1 系統的相同與不同之處主要表現在以下幾個方面:
(1)兩者都是 N+1 冗余并機系統,具有完全相同的運行模式;
(2)同樣是 n+1 冗余系統,而模塊化 UPS 卻是把整個系統集成起來。集成的內容包括:輸入配電、 輸出配電、維護旁路、集中靜態旁路、集成的并機背板、集成的系統管理等。
與單機組成的 n+1 冗余系統相比,集成的優勢表現在以下幾點:
系統高度集成,省去了現場安裝、連線、調試等工作,可縮短現場調試時間,并保證系統調試質 量,減少認為錯誤,提高系統可靠性;
設備制造和供應渠道的統一化:無需再單獨購置和安裝輸入輸出配電、靜態旁路和維修旁路等設 備、縮短建設周期、縮短故障修復時間(發生故障后不再有設備供應上的推諉問題); ?
設備及各環節的匹配(相當于定制):包括設備容量的匹配、設備輸入輸出阻抗的匹配、設備及 各環節的連接的規范化,提高系統運行的可靠性;
節省機房設備安裝的物理空間;
集中管理:提高管理維護水平、降低運營費用
(3)模塊化 UPS 可熱插拔快速修復的優勢
可快速修復的系統:對關鍵設備的故障修復時間是單機冗余系統的 1/8~1/10;
提高安裝、調試和維護的質量:減少人為錯誤、降低維護難度;
提高部署速度:模塊化無工具安裝,可將系統安裝時間縮短到單機冗余系統的 1/10~1/15
提高系統擴展能力:可按需要擴展系統容量;
避免過度規劃:降低設備和備件成本,明顯地提高設備工作效率;
簡化規劃、設計、安裝流程:降低非設備資本成本。
4、模塊化 UPS 的可靠性
從圖 4 可以看出,模塊化 UPS 是一個具有多重冗余結構的可擴充的模塊化系統,要確切的分析其可 靠性是一件很繁瑣的事,況且還需要若干符合實際情況的設備和元件的權威性的可靠性數據。但是,我們 可以針對 UPS 設備中最薄弱的環節 AC/DC 和 DC/AC 變換,從方案配置的角度比較單臺 UPS 1+1 冗余并 機和 n+1 模塊化 UPS 在可靠性和可用性方面的差別,依此可看出模塊化系統結構對系統可靠性和可用性 的影響。這樣做是接近實際情況的,因為不管是單臺 UPS1+1 冗余并機還是模塊化 n+1UPS,其可靠性都 主要取決于最薄弱的環節 AC/DC 和 DC/AC 變換。
1+1單機冗余并機系統在運行中只允許一臺發生故障并可在不影響系統正常運行的情況下脫機修復, 兩臺同時故障時系統宕機。
而模塊化n+1UPS(n>1)雖然也是只允許一臺功率模塊發生故障并可在不影響系統正常運行的情況 下脫機修復,兩臺同時故障時系統宕機,但兩臺同時故障的情況卻有多種組合。例如:
n=2,兩臺同時故障的組合有 3 種:1/2、1/3、2/3;
n=3,兩臺同時故障的組合有 6 種:1/2、1/3、1/4、2/3、2/4、3/4;
n=4,兩臺同時故障的組合有 10 種:1/2、1/3、1/4、1/5、2/3……;
(1)滿負荷情況下可靠性的區別
在系統滿負荷情況下,1+1冗余并機和n+1模塊化UPS都是只允許一臺發生故障并可在不影響系統正 常運行的情況下脫機修復,兩臺同時故障時系統宕機。圖5是1+1冗余并機和4+1模塊化UPS的可靠性模型。
如果單機(模塊)的可靠度為 R,1+1 冗余并機可靠度為 R1+1,4+1 模塊化 UPS 可靠度為 R4+1,則:
在所有各臺可靠性相同且等于0.99的情況下,則:
(2)實際負荷小于滿負荷情況下可靠性的區別
在實際應用中,設計負載容量都小于UPS的額定輸出容量,特別是在數據中心投入使用的初期,負載 的實際容量往往小于UPS的額定輸出容量,此時UPS的冗余模塊的數量會大于1,我們可把系統定義為模 塊化n+m冗余并機系統。 ?
n:單機(或模塊)數,n 個模塊(單機)額定容量之和等于 UPS 實際輸出負載容量; ?
m:實際冗余的單機(或模塊)數。
n+m系統在運行中,允許發生故障電源模塊數m與系統實際輸出負載量的大小有關,仍以4+1冗余系 統為例,當系統實際負載等于UPS系統設計最大負載量時,實際運行情況為4+1冗余系統,運行中允許一 臺發生故障并可在不影響系統正常運行的情況下熱插拔更換,任意兩臺同時故障時系統宕機。即:n=4, m=1,兩臺同時故障的組合有10種:
當系統實際負載等于設計最大負載量的75%時,則4+1冗余系統變成3+2冗余系統,系統中允許兩臺同 時發生故障并可在不影響系統正常運行的情況下熱插拔更換,任意三臺同時故障時系統才宕機。即:n=3, m=2, 三臺同時故障的組合有10種:
當系統實際負載等于設計最大負載量的50%時,4+1冗余系統變成2+3冗余系統,系統中允許3臺同時發生故障并可在不影響系統正常運行的情況下熱插拔更換,任意四臺同時故障時系統才宕機。即:n=2, m=3,四臺同時故障的組合有5種 :
假定單機(或模塊)的年可靠度R=0.99,可計算出1+1冗余并機與n+1模塊冗余并機的區別,以及負 載量的影響,如表(1)所示,這里取n=4。
表(1)1+1冗余并機和4+1模塊化冗余并機的可靠性差別及與負載量的關系
通過以上分析可得出下面的結論:
① 由單機1+1組成冗余系統,當單機可靠度為0.99時,并機系統可靠度可達到0.9999,此值與負載無關, 也就是說,不管系統實際負載量是多少,系統永遠是1+1冗余,不允許兩臺同時故障,可靠度也就永遠是 0.9999;
② 由模塊(包括單機)組成的4+1冗余系統,當系統實際負載等于設計額定負載量時,如果模塊(或單 機)可靠度為0.99,則系統可靠度為0.999,低于1+1冗余系統。但是當系統實際負載等于UPS系統設計最 大負載量的75%時,則4+1冗余系統變成3+2冗余系統,系統可靠度高達0.99999,當系統實際負載等于設 計最大負載量的50%時,4+1冗余系統變成2+3冗余系統,可靠度再次提高到0.99999995。
5、模塊化 UPS 的可用性
計算可靠性時使用的數學模型和計算方法同樣適用對可用性的分析和計算,但是計算可用性時我們用 可靠性的另一個參數-平均無故障時間 MTBF,同時還要用到可修復性參數-平均修復時間 MTTR。
假定:單機 UPS 的 MTBF=10 萬小時(這是目前產品的水平,相當于 11 年);
單機 UPS 的 MTTR=8 小時(包括故障反應和故障修復時間)
模塊化 UPS 功率模塊的 MTBF=10 萬小時(同單機 UPS)
模塊化 UPS 功率模塊的 MTTR=1 小時(在有備份的情況下由維護人員熱插拔修復);
則: UPS 單機的可用性 A=MTBF/(MTBF+MTTR)=0.9999
對可用性的計算表示在表(2)中
表(2)1+1 冗余并機和 4+1 模塊化冗余并機的可用性差別及與負載量的關系
通過以上分析可得出下面的結論:模塊化UPS的可用性比1+1單機冗余并機的可用性高,根本原因是 模塊化UPS的模塊故障后可由維護人員熱插拔修復,使故障修復時間MTTR降到1個小時。再者,可用性也 隨著負載量的減輕而提高,當系統實際負載等于設計額定負載量的75%時,可用性已經近似為1。
以上分析得到的可靠性和可用性結果都是比較高的,如果把系統中的輸入配電、輸出配電、變壓器、 UPS 的輸入和輸出接觸器等環節都考慮在內,那么實際的可靠性和可用性數值都要小得多。
六、結束語
可修復和可快速修復功能是提高系統可用性的關鍵,模塊化是可修復和可快速修復的根本條件,也是 提高適應性和降低總擁有成本的最有效的措施。"系統模塊化設計"已經成為數據中心設計建造必須遵守的原則。"系統模塊化設計"觀念在行業中已上升到一個新的高度,成為了一種富有創造性并具突出戰略意義 的設計哲學。
"模塊化UPS"是最高級別的模塊化系統,其設計理念必然會引領著數據中心基礎設施設計建造的發展方向。
但是,使整個數據中心基礎設施模塊化要比一臺UPS系統模塊化困難得多,很多設備和環節雖然可模 塊化-具有獨立功能、可獨立運行、可整體安裝,但要插拔維護卻很困難或者不可能,甚至在系統運行后再 拆卸、更換、移動也不是件容易的事, 這是當前數據中心基礎設施普遍存在的問題。要解決這個問題, 不僅要使所有設備和環節在連接方式上具備可拆卸、更換、移動的條件,還要在物理條件上-空間、走道、 工具的可操作性等方面做精心的設計。