亞馬遜云業(yè)務(wù)AWS經(jīng)歷了一場(chǎng)嚴重故障,上千受影時(shí)潛損失導致全球眾多大型網(wǎng)站癱瘓。網(wǎng)站務(wù)年
當地時(shí)間10月20日下午3點(diǎn)左右,響亞亞馬遜AWS發(fā)布公告稱(chēng),馬遜美元已解決了當天持續了約15小時(shí)的云服服務(wù)故障問(wèn)題,“所有AWS服務(wù)均恢復正常運行”。最嚴重宕不過(guò),或超部分服務(wù)(例如AWS Config、百億Redshift和Connect)仍有積壓的上千受影時(shí)潛損失消息,將在接下來(lái)的網(wǎng)站務(wù)年數小時(shí)內處理完畢。
目前,響亞AWS尚未給出詳細的馬遜美元故障原因報告。根據Synergy Research Group的云服數據,作為全球規模最大的最嚴重宕云服務(wù)巨頭之一,AWS占有全球云服務(wù)市場(chǎng)份額的或超30%以上,在世界各地設有數據中心。
故障觸發(fā)原因:核心節點(diǎn)出現DNS解析故障
此次故障由數據庫網(wǎng)絡(luò )故障引發(fā),影響了全球成百上千個(gè)網(wǎng)站和應用程序。20日當天,美西時(shí)間凌晨12點(diǎn)左右,AWS的核心節點(diǎn)之一美國東部1區(US-EAST-1)首先報告出現“顯著(zhù)的錯誤率和延遲”現象。該節點(diǎn)位于美國弗吉尼亞州北部,是最早啟用、規模最大的主要節點(diǎn),許多全球服務(wù)默認部署于此。
最早一批受到嚴重影響的網(wǎng)站和應用程序包括亞馬遜、聊天軟件Snapchat和Facebook,以及熱門(mén)游戲Fortnite和學(xué)習平臺Canvas等等。根據公告,AWS在20日當天凌晨12時(shí)26分確認,故障的觸發(fā)原因是“區域性DynamoDB(AWS旗下云原生數據庫)服務(wù)端點(diǎn)的DNS解析問(wèn)題”。
DNS(域名系統)是一種將網(wǎng)址轉換為IP地址的系統,這也就意味著(zhù),客戶(hù)端無(wú)法把DynamoDB的域名以正常的速度解析成正確的IP地址,從而導致了后續一連串服務(wù)故障。在凌晨2時(shí)24分,AWS解決了美國東部1區DynamoDB的DNS問(wèn)題,各項服務(wù)開(kāi)始恢復。
然而,就在大家以為問(wèn)題得到解決時(shí),第二波故障開(kāi)始出現。AWS發(fā)現,其依賴(lài)于DynamoDB的虛擬機服務(wù)EC2的內部子系統也出現了問(wèn)題,導致無(wú)法正常啟動(dòng)EC2實(shí)例,而AWS的多個(gè)服務(wù)也受其影響出現了網(wǎng)絡(luò )連接問(wèn)題。
在恢復過(guò)程中,AWS對啟動(dòng)EC2實(shí)例等操作進(jìn)行了限流,直到當天下午3時(shí)01分,所有AWS服務(wù)才恢復正常運行。
根據網(wǎng)絡(luò )故障追蹤網(wǎng)站Downdetector的統計,金融服務(wù)公司Venmo和Robinhood、加密貨幣交易所Coinbase、蘋(píng)果公司的音樂(lè )和電視產(chǎn)品、AI公司Perplexity、視頻網(wǎng)站Zoom、索尼游戲平臺PlayStation、美國聯(lián)合航空等網(wǎng)站或應用都在當天經(jīng)歷了服務(wù)中斷,而英國政府網(wǎng)站Gov.uk和英國稅務(wù)海關(guān)總署也遇到了問(wèn)題。在故障發(fā)生后的短短兩小時(shí)內,僅美國地區的相關(guān)投訴量便突破2萬(wàn)條。
專(zhuān)家:全球網(wǎng)絡(luò )對幾大云巨頭的依賴(lài)程度越來(lái)越深
分析指出,此次宕機事件凸顯了全球互聯(lián)網(wǎng)基礎設施的脆弱性。
根據互聯(lián)網(wǎng)性能監控公司Catchpoint的估算,AWS此次服務(wù)中斷造成的經(jīng)濟損失將至少達到數十億美元。Catchpoint的CEO Mehdi Daoudi指出,如果將本次宕機的后續影響、公司停業(yè)損失和“數百萬(wàn)名無(wú)法進(jìn)行工作的員工的生產(chǎn)力損失”都考慮在其中,累計損失金額將會(huì )是數百億美元乃至千億美元。
咨詢(xún)公司Duckbill的首席云計算經(jīng)濟學(xué)家Corey Quinn表示,此次事故可能是AWS自2021年12月發(fā)生重大中斷以來(lái)最嚴重的一次:“問(wèn)題在于,這次到底算不算那種‘大規模災難’,還是由于我們的系統之間更加緊密相連、對亞馬遜的依賴(lài)更深,所以造成的影響看起來(lái)更大?”
這讓人聯(lián)想起去年7月時(shí),網(wǎng)絡(luò )安全公司CrowdStrike造成的微軟大規模藍屏事件。那次大規模宕機事件因CrowdStrike公司升級安全軟件而引發(fā),影響了全球大約850萬(wàn)臺安裝微軟Windows操作系統的設備。
網(wǎng)絡(luò )安全公司NymVPN的首席數字官Rob Jardin表示,AWS的本次宕機事件似乎并非由網(wǎng)絡(luò )攻擊引起,更可能是由于“亞馬遜某個(gè)主要數據中心出現技術(shù)故障”所致:“當系統過(guò)載或網(wǎng)絡(luò )中的關(guān)鍵組件宕機時(shí),就可能出現這種問(wèn)題。由于大量網(wǎng)站和應用程序都依賴(lài)AWS,影響往往會(huì )迅速蔓延?!?/p>
美國圣母大學(xué)(University of Notre Dame)門(mén)多薩商學(xué)院的信息技術(shù)教授Mike Chapple也強調,問(wèn)題并非出在數據庫本身,而是域名解析系統:“這次事件提醒我們,整個(gè)世界對亞馬遜、微軟和谷歌這少數幾家大型云服務(wù)商的依賴(lài)有多深。當一家主要的云廠(chǎng)商‘打噴嚏’時(shí),整個(gè)互聯(lián)網(wǎng)都會(huì )感冒?!?/p>
或許是事故讓市場(chǎng)重新認識到了AWS的重要性,20日當天,亞馬遜(Nasdaq:AMZN)股價(jià)漲1.61%收于每股216.48美元,總市值2.31萬(wàn)億美元。
澎湃新聞?dòng)浾?胡含嫣