史上最大規模IT當機如何發生? CrowdStrike凸顯資訊系統哪些脆弱點?
昨(19)日全球的醫院、金融、航空、運輸、運動、零售、媒體等系統出現大當機,大量的航班、手術被取消,國內的台大、榮總等醫院門診也受到影響。
是什麼導致「史上最大規模IT當機」?
由於這波「史上最大規模IT當機」只發生在Windows上,因此許多人一開始誤以為是Windows出問題,但真正原因其實是資安服務公司CrowdStrike旗下的產品Flacon Sensor更新檔與Windows系統衝突導致。
成立於2011年的CrowdStrike是1家美國的網路安全公司,是該領域的巨頭,旗下客戶高達近3萬名。該公司宣稱,超過半數的財富美國500強(Fortune 500)大企業都在使用他們的服務,包含Amazon、微軟等公司。本次大當機事故前,CrowdStrike市值高達830億美元(約新台幣2.7兆)。
為了最大限度的檢測網路攻擊,CrowdStrike的相關服務需要獲得更多執行權限,因此都在電腦核心層級(kernel,用來溝通硬體與軟體的作業系統核心)執行,但這也導致電腦在安裝了出錯的Flacon Sensor更新檔之後不斷重啟,一旦電腦處於離線狀態,CrowdStrike便無法推送新的更新檔將系統修復。
CrowdStrike執行長柯茲(George Kurtz)已對此事致歉,表示已經隔離問題、著手修復,承諾確保恢復所有客戶的系統,並表示未來將公開透明的說明事件發生的原因與解決方式。
微軟安全與合規業務負責人約翰遜(Ann Johnson)表示這次的當機規模很大,都發生在安裝CrowdStrike軟體的Windows上,「現在我們有數百名工程師直接與CrowdStrike合作,修復問題。」
預計多久恢復?
CNN指出,雖然CrowdStrike表示這個問題似乎能解決,但由於前述提及的無法推送更新,導致目前的修復方式需要人工進入Windows系統「安全模式」,手動刪除有問題的檔案,這對於擁有成千上百台電腦的CrowdStrike客戶來說非常痛苦。
此外,部分重視資安的公司可能會加密硬碟,需要解密金鑰才能夠刪除檔案,但金鑰可能就被存在目前正反覆重啟的伺服器上,陷入無法進入系統刪除檔案的死循環。
前FBI反間諜特工歐尼爾(O’Neill)認為,雖然不知道有多少電腦受到影響,但估計企業的IT工程師可能需要花費數百萬小時才能修復所有受影響的電腦,此外由於疫情後許多人改採遠距上班,因此IT工程師必須遠端與這些遠距員工溝通,「原本幾小時就能修好的東西,變得要花上好幾天。」
CrowdStrike與微軟市占龐大 全球資訊系統脆弱
這次的事件顯示出全球資訊系統的脆弱,外媒指出,CrowdStrike與微軟市占龐大,使多數企業使用一樣的資安服務,缺乏多樣性,但這些企業又沒有做好應對突發事故的準備,才會導致這場「完美風暴」形成。
伍斯特理工學院資工系教授舒(Craig Shue)以「把雞蛋放在同個籃子裡」形容這件事,「我們確保『籃子』是高品質的,也就是使用的資安系統能識別威脅並快速回應,但如果籃子壞了,就會有很多雞蛋破掉。」
白宮的資深資安官員紐伯格(Anne Neuberger)指出,應該重新思考如何讓資訊服務更有彈性與恢復力,「這不單指執行的系統,而是要重新思考如何整合串聯全球的安全系統,以及如何在發生事故的第一時間就能加以控制並迅速復原。」
路透社報導,部分產業分析師也開始質疑,重要系統的控制權,僅由少數公司掌握是否適宜。