在系統(tǒng)設計中添加“黑盒子”故障記錄儀
摘要:本文介紹了一種在網(wǎng)絡、通信、工業(yè)和醫(yī)療設備中增添“黑盒子”功能的方案。綜合介紹了記錄故障數(shù)據(jù)的優(yōu)勢,包括能夠快速、準確地定位故障,進行失效分析。
本文引用地址:http://www.bjwjmy.cn/article/130633.htm引言
相信每個人都了解“黑盒子”的用途,用于記錄飛機飛行過程中發(fā)生意外瞬間的數(shù)據(jù)。飛機的“黑盒子”能夠收集大量飛行操作數(shù)據(jù),包括:高度、速度、襟翼和航向位置;記錄飛行員在事故發(fā)生之前進行的操作和對話。這些數(shù)據(jù)對于最終分析事故的根本原因起著重要作用。
“黑盒子”并非名副其實,飛機上的黑盒子從不是黑色的,而是采用橙色,以便容易被發(fā)現(xiàn)。所以,該設備的正確名稱應該是“事件數(shù)據(jù)記錄儀”。
當然,在工程師眼里,“黑盒子”代表一個已知輸入、輸出,但內(nèi)部操作未知的設備。本文并不討論這種設備。在電子設備(而不是飛機)中增加數(shù)據(jù)記錄功能——“黑盒子”,將為系統(tǒng)提供非常有價值的信息。電子設備中所謂的復雜系統(tǒng)管理器——黑盒子,用于記錄網(wǎng)絡、通訊、工業(yè)、醫(yī)療設備的故障數(shù)據(jù)。記錄故障所帶來的最大好處是快速、有效地進行失效分析。本文介紹了實現(xiàn)這個功能的方案以及利用非易失故障記錄的便利條件。
電源管理機制
從電源管理的角度看,大多數(shù)系統(tǒng)架構看起來非常接近。無論系統(tǒng)是路由器、服務器、基站、光纖交換機、可編程控制器,還是磁共振成像儀,它們都包含開關電源和線性穩(wěn)壓器,而且都需要監(jiān)測電壓、電流、溫度或風扇速度,如圖1所示。
非易失故障記錄
無論是大規(guī)模系統(tǒng),還是一個“比薩”盒子大小的系統(tǒng),其系統(tǒng)管理器的主要功能是控制、監(jiān)測大量的電源和風扇,其中包括:系統(tǒng)故障查詢,例如:過壓/欠壓、過流、溫度是否超出工作范圍,或者是風扇速度是否正常。將故障監(jiān)測轉(zhuǎn)化成檢測參數(shù)是否超出閥值這類簡單操作。系統(tǒng)運行過程中實時采集數(shù)據(jù),并在發(fā)生故障時將數(shù)據(jù)存儲到非易失存儲器,由此創(chuàng)建事件數(shù)據(jù)記錄器,圖2顯示了一個系統(tǒng)方案。
圖2中,復雜系統(tǒng)管理器連續(xù)收集系統(tǒng)電壓、電流、溫度和風扇速度等數(shù)據(jù)。類似于飛機上的“黑盒子”,記錄儀將滾動收集大量的最新數(shù)據(jù)(比如,500ms到1s的最新數(shù)據(jù))。發(fā)生故障時,系統(tǒng)的瞬間信息將被永久記錄下來。能夠檢查故障發(fā)生前500ms - 1s期間的系統(tǒng)操作,對排查系統(tǒng)故障的原因和系統(tǒng)分析非常重要。通過核查數(shù)據(jù),可以重新組織時間段,確定系統(tǒng)的相互依賴關系。理想情況下,復雜系統(tǒng)管理器應記錄多種故障,便于建立系統(tǒng)之間的相互依賴性,發(fā)生一個故障后,可能會引發(fā)更多的后續(xù)故障。為了找到故障的根本原因,需要記錄盡可能完備的數(shù)據(jù)。而且,大容量非易失數(shù)據(jù)存儲允許系統(tǒng)記錄并非關鍵的故障,只是表示系統(tǒng)的某些參數(shù)超出了工作范圍,這對提高整體系統(tǒng)的安全性非常重要。
評論