在系統設計中添加“黑盒子”故障記錄儀
摘要:本文介紹了一種在網絡、通信、工業和醫療設備中增添“黑盒子”功能的方案。綜合介紹了記錄故障數據的優勢,包括能夠快速、準確地定位故障,進行失效分析。
本文引用地址:http://www.104case.com/article/130633.htm引言
相信每個人都了解“黑盒子”的用途,用于記錄飛機飛行過程中發生意外瞬間的數據。飛機的“黑盒子”能夠收集大量飛行操作數據,包括:高度、速度、襟翼和航向位置;記錄飛行員在事故發生之前進行的操作和對話。這些數據對于最終分析事故的根本原因起著重要作用。
“黑盒子”并非名副其實,飛機上的黑盒子從不是黑色的,而是采用橙色,以便容易被發現。所以,該設備的正確名稱應該是“事件數據記錄儀”。
當然,在工程師眼里,“黑盒子”代表一個已知輸入、輸出,但內部操作未知的設備。本文并不討論這種設備。在電子設備(而不是飛機)中增加數據記錄功能——“黑盒子”,將為系統提供非常有價值的信息。電子設備中所謂的復雜系統管理器——黑盒子,用于記錄網絡、通訊、工業、醫療設備的故障數據。記錄故障所帶來的最大好處是快速、有效地進行失效分析。本文介紹了實現這個功能的方案以及利用非易失故障記錄的便利條件。
電源管理機制
從電源管理的角度看,大多數系統架構看起來非常接近。無論系統是路由器、服務器、基站、光纖交換機、可編程控制器,還是磁共振成像儀,它們都包含開關電源和線性穩壓器,而且都需要監測電壓、電流、溫度或風扇速度,如圖1所示。
非易失故障記錄
無論是大規模系統,還是一個“比薩”盒子大小的系統,其系統管理器的主要功能是控制、監測大量的電源和風扇,其中包括:系統故障查詢,例如:過壓/欠壓、過流、溫度是否超出工作范圍,或者是風扇速度是否正常。將故障監測轉化成檢測參數是否超出閥值這類簡單操作。系統運行過程中實時采集數據,并在發生故障時將數據存儲到非易失存儲器,由此創建事件數據記錄器,圖2顯示了一個系統方案。
圖2中,復雜系統管理器連續收集系統電壓、電流、溫度和風扇速度等數據。類似于飛機上的“黑盒子”,記錄儀將滾動收集大量的最新數據(比如,500ms到1s的最新數據)。發生故障時,系統的瞬間信息將被永久記錄下來。能夠檢查故障發生前500ms - 1s期間的系統操作,對排查系統故障的原因和系統分析非常重要。通過核查數據,可以重新組織時間段,確定系統的相互依賴關系。理想情況下,復雜系統管理器應記錄多種故障,便于建立系統之間的相互依賴性,發生一個故障后,可能會引發更多的后續故障。為了找到故障的根本原因,需要記錄盡可能完備的數據。而且,大容量非易失數據存儲允許系統記錄并非關鍵的故障,只是表示系統的某些參數超出了工作范圍,這對提高整體系統的安全性非常重要。
評論