診治IP網絡故障解決方案
第二種方式是業務隨路檢測,直接對業務流進行度量,典型代表是ITU-T Y.1731標準中定義的丟包統計功能,其原理簡單地說就是“包守恒”,體現在以下的公式:
接收報文數量 = 發送報文數量
具體實現上,發送方和接受方都對業務流進行計數統計,發送方定時將計數發送到接收方,由接收方進行核對,核對出錯即是故障發生。
第三種是業務分析。這種方式度量業務數據,并和預定義的標準閾值進行對比,如針對IPTV業務,采用專用硬件掛接在設備端口上,直接度量網絡上IPTV流量的vMOS值等業務指標。這種方式需要采用DPI等方式,對實際業務報文進行采樣統計或深度解析,按照業務已經定義的預期,分析其是否出現問題。該方式的優點是真實,缺點是設備部署和維護的成本高。
這三種方式不是非此即彼的關系,需要根據業務SLA目標,綜合采購、維護成本等因素進行考慮和選擇。
另外,控制平面和轉發平面是互相有影響的,控制平面的運行直接影響轉發平面的流量分布,可能會導致設備、鏈路的擁塞、故障等。因此,華為將控制平面與轉發平面的預期建立和現狀檢測進行了綜合與疊加,提供“路徑+流量”的IP可視化方案,提供全面的故障監控和定位能力。
針對告警多的問題,華為在與中國移動的告警優化的合作中,通過對告警定義、告警級別的梳理,使城域網的日故障工單下降了50倍,每天的告警工單數量從500余條下降到10條左右,大大降低了工單處理的工作量。針對無告警的問題,如鏈路誤碼、鏈路閃斷、器件失效和路由錯誤等常見疑難故障,以往需要幾小時,甚至是幾天時間才能排查,通過華為IP可視化方案,內部測試已經可做到分鐘級的故障定位,該方案正在一些運營商網絡上進行試點運行,已經取得一定成效,為幫助運營商降低維護難度,有效縮短故障恢復時長夯實了基礎。
評論