在關鍵系統中降低災難性硬件故障引起的損失
但是,很少有OEM廠商在如何針對電源單元(PSU)問題做出反應方面為最終用戶提供選擇。例如,考慮一個運行繁忙的電子商務網站的任務關鍵服務器。如果系統檢測到過壓情況,服務器很可能會立即關閉以保護硬件。反應如此快使得系統無法軟關機,因此很可能會丟失數據并失去潛在的客戶。
在許多情況下,數據要遠比硬件重要,根據問題的類型,在允許系統軟關機的情況下仍可使硬件風險最低。俗話說“條條大路通羅馬”,系統設計的目標是使系統在此時的總體損失最小,因此處理電源問題的方法也不止一種。
幾乎任何類型系統中都會發生的一種情形是電源故障導致電壓下降。圖1給出了一個簡單的例子,利用Analog Devices公司ADM1024等系統硬件監測IC來監測兩路獨立電源。對ADM1024器件進行編程,當電壓高于預先編程設定的一個電壓數值或低于另一個預先設定的電壓數值時,器件將產生一個中斷,也就是說,該器件為每個電壓通道提供了一個內置的窗口比較器。如果一路電源的電壓輸出開始漂移,那么當輸出超出編程設定的電壓范圍時,器件將會自動產生一個中斷。然后由系統管理控制器決定如何針對這一信息做出響應。請注意獨立的過壓保護機制,這是為了在嚴重過壓時實現硬件保護。還有這樣的可能性,就是在系統管理控制器從系統監測電路中讀取電壓數值并決定行動方式時,系統電壓可能會上升到危險的水平。最終是否需要此類保護電路取決于每個電源的故障機制是否會導致PSU故障過程中出現危險性的過壓情況。

圖1 監測兩個獨立的PSU

圖2 PSU故障時的可能響應

圖3 管理不同級別的故障
圖2中的流程圖示出了可供用戶選擇的可能操作,需要指出的重要一點是電源出現問題時數據備份的方式。當系統電源不穩定時,如果用戶試圖保存數據很容易導致數據破壞。這種狀態下的連續操作很容易損壞整個數據庫,從而使得整個電源故障響應機制出現問題。如果保護未保存數據的成本遠小于數據丟失的成本,那么可以為緊急關機提供一個替代存儲位置。
通過將當前事務拷貝到一個替代位置(例如,拷貝到非易失性RAM或備用硬盤驅動器中)以便進行事后分析,可以將損壞已穩定數據區域的可能性降到最小。如果能夠通過這種方式保存當前數據,那么即使受到一定的破壞,仍有機會恢復數據。
不管怎樣,在系統設計時都可以確定哪種電源故障狀態容易導致數據破壞,同時通過縮小電源監測IC的窗口比較器范圍來降低數據破壞的可能性。
結合其它監測到的信息,包括遠程溫度、IRQ、風扇速度等,可以獲得系統故障的更確切情況,從而使設計人員可更好地針對不同情況做出反應。
然而,響應速度最快的方式是利用監測IC中斷來報告可能的系統問題,中斷表明系統出現了故障,然后系統管理控制器立即對這一信息做出反應。在系統中,PSU自身問題會很快表現出來,而對有些問題,系統管理控制器讀取寄存器并試圖形成解決方案的過程可能就太慢了。解決這一問題的方法是利用兩片監測IC,如Analog Devices公司的ADM1024(參看圖3)。每片IC的19引腳(Vccp1)連接在一起。在一片IC上,對窗口比較器編程來監測較小的PSU問題;在第二片IC上,對窗口比較器編程來監測更為嚴重的問題(比如,其界限可編程為接近系統安全工作的最大和最小額定電壓)。來自第一片監測IC的中斷使系統通知用戶出現問題,并立即執行預設定的策略,將服務中斷造成的影響降到最小。來自第二片IC的中斷表明系統處于崩潰的危險邊緣,系統應當采用更為迫切的反應措施。
盡管這種機制的可行性要視系統而定,但通常在檢測到系統出現問題時并不是只有立即關閉系統一種選擇,還有許多其它的選擇。主動監測一系列系統參數能夠提供足夠的信息來構建對硬件和數據最安全的解決方案,從而最終節約大量成本。■
評論