為什麼製造以外的災難性場景測試對於關鍵基礎設施安全至關重要

美國聯邦航空局史無前例的停運導致所有國內航班停飛,每個人都在問:

這怎麼發生的?

誰是負責的人?

我們如何防止類似的事情再次發生?

這次中斷引起了我們的注意,強調即使是我們認為最安全、最受信任和驗證的系統也可能會失敗。

雖然這種達到公眾意識水平的中斷很少見,但當生命攸關的系統中確實發生這種中斷時,它可能會導致大量影響安全、安保和經濟的災難性後果。 我們現在看到的是交通中斷以及網絡/應用程序服務超載的後果,成千上萬的乘客爭先恐後地到達目的地。

雖然今天的 FAA 中斷被認為是系統故障,但它是一種正常的降級故障。 這意味著,幸運的是,沒有人因故障而死亡,並且系統在造成更多損壞之前有效地關閉了。

這是幸運的,但並不令人鼓舞。

製造中一直使用測試來檢測缺陷——例如,故障模擬是一種人為“破壞”設備的方法,以查看診斷測試是否能檢測到故障並將其隔離到根本原因。 在設計軟件時,工程師們被教導要按照功能規范進行設計。 在尋找導致系統故障的災難性場景或需要發生的“完美風暴”條件方面花費的精力要少得多。 預測這些情況可以幫助我們主動建立機制來主動檢測和預防災難性故障。

防止未來中斷和其他關鍵基礎設施故障

隨著雲計算和人工智能解決方案的普及,我們現在擁有足夠高效的計算能力來評估數百萬個操作場景,以檢測哪些情況可能導致災難性場景。

對於美國聯邦航空局,現在應該可以主動分析所有國內機場、空中和地面飛機以及計劃未來使用的飛機、控制塔通信和相關基礎設施、乘客、天氣、和安全性來解決可能導致系統故障的場景。

如果考慮到該系統交互和相互依賴的複雜性,很明顯,查看所有故障點是一項艱鉅的任務。

人工智能可以幫助分析這些海量數據,以主動尋找可能對 FAA 系統構成挑戰的模式和行為。

這並非史無前例,因為人工智能已被用於更好地檢查交通模式以優化調度和物流。

該技術還可以部署為一種強大的防禦機制,以提供對系統中網絡攻擊和/或異常行為的早期檢測。 有效部署此類系統的關鍵是隔離那些特定的異常值和條件,以便人類專家對其進行審查。

從美國聯邦航空局的故障中可以吸取很多教訓,我們將及時對發生的事情有一個更清晰的了解。 但是,就目前而言,很明顯,人工智能等新興技術能夠主動檢測系統故障和可能出現的其他挑戰,在我們如何維護我們的關鍵基礎設施向前發展方面發揮著重要作用。

來源:https://www.forbes.com/sites/karenpanetta/2023/01/11/the-perfect-storm-of-the-faa-outage-why-catastrophic-scenario-testing-beyond-manufacturing-is-至關重要的關鍵基礎設施安全/