2024 年 9 月 10 日上午,阿里云新加坡可用區(qū) C 數(shù)據(jù)中心突發(fā)火災(zāi),主要科技公司服務(wù)中斷。火災(zāi)原因確定為鋰電池爆炸。據(jù)外媒報(bào)道,10 日早上約 8 點(diǎn)火災(zāi)發(fā)生,截至 11 日下午 8 點(diǎn),已持續(xù) 36 小時(shí)仍未完全撲滅。
一、火災(zāi)影響及進(jìn)展
阿里云發(fā)布官方聲明,關(guān)鍵云產(chǎn)品如云數(shù)據(jù)庫 Redis、MongoDB、RDS MySQL 等受到影響。今日凌晨更新進(jìn)展,稱大部分受網(wǎng)絡(luò)影響的云產(chǎn)品已恢復(fù)正常運(yùn)行,但部分業(yè)務(wù)因機(jī)房斷電需等物理?xiàng)l件恢復(fù)。“昨晚 20:23,消防部門仍在現(xiàn)場(chǎng)處理大樓安全風(fēng)險(xiǎn),運(yùn)維工程師等待進(jìn)入機(jī)房許可。若現(xiàn)場(chǎng)評(píng)估不具備原地恢復(fù)條件,應(yīng)急小組將執(zhí)行服務(wù)器設(shè)備遷移恢復(fù)方案。” 此次事件不僅影響阿里云服務(wù),還對(duì)托管在該機(jī)房的 Lazada 和字節(jié)跳動(dòng)等科技公司造成嚴(yán)重服務(wù)中斷。Lazada 和 TikTok Shop 電商平臺(tái)賣家反饋無法同步訂單信息,用戶稱小黃車功能無法正常使用。兩平臺(tái)已對(duì)受影響訂單延期處理。部分 TikTok 用戶反饋新加坡發(fā)布的視頻無法獲得正常流量。該數(shù)據(jù)中心還托管其他跨國公司服務(wù)器,有用戶報(bào)告 Digital Ocean、IaaS 服務(wù) Coolify 以及 Cloudflare 出現(xiàn)宕機(jī)或服務(wù)降級(jí),似乎與此次火災(zāi)有關(guān)。AWS 銷售趁機(jī)安利自家服務(wù)。

二、火災(zāi)詳情及挑戰(zhàn)
機(jī)房火災(zāi)由鋰電池爆炸引發(fā),持續(xù)超 30 小時(shí)。據(jù)當(dāng)?shù)孛襟w報(bào)道,該數(shù)據(jù)中心屬美國數(shù)據(jù)中心房地產(chǎn)投資信托 Digital Realty 名下。火災(zāi)始于當(dāng)?shù)貢r(shí)間周二上午,群眾事發(fā)前聽到爆炸聲,隨后數(shù)據(jù)中心冒濃煙,有嗆鼻燒焦味。鋰電池爆炸威力巨大,瞬間引發(fā)火災(zāi)并迅速蔓延。Digital Realty 公司發(fā)言人表示,“2024 年 9 月 10 日上午 7:45,SIN11 數(shù)據(jù)中心觸發(fā)火災(zāi)警報(bào)。8:15 前所有現(xiàn)場(chǎng)人員安全撤離,事故未造成人員受傷。” 事故發(fā)生在數(shù)據(jù)中心一棟建筑的電池室。新加坡民防部隊(duì)公告稱,火患波及數(shù)據(jù)中心三樓閣樓內(nèi)兩個(gè)電池房、兩個(gè)電源房和一個(gè)設(shè)備儲(chǔ)藏室。滅火手段包括四個(gè)水槍、房內(nèi)灑水滅火系統(tǒng)、滅火機(jī)器人等。為防復(fù)燃,消防人員留守?cái)?shù)據(jù)中心外面,“需降溫和澆濕控制連鎖反應(yīng)”。但截至 11 日晚,失火數(shù)據(jù)中心仍有兩處冒煙。滅火面臨諸多挑戰(zhàn),鋰離子電池火災(zāi)難撲滅,內(nèi)部化學(xué)反應(yīng)會(huì)持續(xù)生熱提供燃料致自燃復(fù)燃;會(huì)釋放有毒氣體增加消防員風(fēng)險(xiǎn)且使滅火復(fù)雜;數(shù)據(jù)中心封閉式設(shè)計(jì)通風(fēng)有限不利煙霧排出。業(yè)界對(duì)用水滅火有爭(zhēng)議,認(rèn)為可能導(dǎo)致電池短路加劇火勢(shì),全氟己酮滅火劑則效果優(yōu)異。9 月 11 日晚 8 點(diǎn),消防員仍在現(xiàn)場(chǎng)澆濕作業(yè)。大樓建筑結(jié)構(gòu)受損,建設(shè)局對(duì)部分區(qū)域發(fā)出危樓令和封閉令。

三、阿里云業(yè)務(wù)受影響情況
受到火災(zāi)影響的企業(yè)被告知啟動(dòng)災(zāi)難事態(tài)下業(yè)務(wù)連續(xù)性計(jì)劃。阿里云狀態(tài)報(bào)告稱,周二 10:20 檢測(cè)到新加坡區(qū)域 C 可用區(qū)異常,“部分云服務(wù)無法正常運(yùn)行”。后續(xù)更新指出異常由鋰電池爆炸引發(fā),爆炸導(dǎo)致現(xiàn)場(chǎng)起火及溫度升高。作為中國云服務(wù)頭部廠商之一,阿里云稱其災(zāi)難恢復(fù)與故障轉(zhuǎn)移程序按預(yù)期運(yùn)行,高可用性云產(chǎn)品達(dá)承諾服務(wù)水平,但部分用戶須手動(dòng)遷出工作負(fù)載。目前阿里云等待數(shù)據(jù)中心恢復(fù)正常,部分服務(wù)和產(chǎn)品被迫下線。截至周二晚 20:04,“火災(zāi)警報(bào)尚未完全消除”,工作人員無法進(jìn)入著火建筑,數(shù)據(jù)中心內(nèi)一些網(wǎng)絡(luò)設(shè)備 “在高溫環(huán)境下已出現(xiàn)異常”,影響部分云產(chǎn)品網(wǎng)絡(luò)連接。客戶收到警告,稱 “新加坡 C 可用區(qū)遭遇網(wǎng)絡(luò)完全中斷可能性增加”,通知建議 “業(yè)務(wù)部署在該區(qū)域應(yīng)盡快遷移”。周三凌晨 1:46 情況惡化,阿里巴巴表示 “機(jī)房開始出現(xiàn)積水和泄漏,電路存在短路風(fēng)險(xiǎn)”,對(duì)新加坡 C 可用區(qū)一棟建筑緊急斷電。其他建筑網(wǎng)絡(luò)服務(wù)逐步恢復(fù)。Digital Realty 證實(shí),截至周三凌晨 1:45,部分電氣系統(tǒng)已關(guān)閉。

四、數(shù)據(jù)中心火災(zāi)頻發(fā)
數(shù)據(jù)中心作為數(shù)據(jù)存儲(chǔ)和處理的關(guān)鍵基礎(chǔ)設(shè)施,其安全性至關(guān)重要。近年來,全球范圍內(nèi)的數(shù)據(jù)中心火災(zāi)已造成巨大的經(jīng)濟(jì)損失。回顧近年的數(shù)據(jù)中心火災(zāi)事故,充分顯示出這一問題的嚴(yán)重性和緊迫性。

2022 年 8 月,位于美國愛荷華州康瑟爾布拉夫斯的谷歌數(shù)據(jù)中心發(fā)生爆炸,造成 3 人受傷。該數(shù)據(jù)中心是谷歌最大的數(shù)據(jù)中心之一,于 2009 年首次啟用。事故發(fā)生后,據(jù)宕機(jī)追蹤網(wǎng)站?
Downdetector.com?數(shù)據(jù)顯示,美國有超過 4 萬人報(bào)告無法使用谷歌搜索。
因電池起火造成的意外事故并不鮮見。2022 年 10 月,韓國 SK 公司 C&C 板橋數(shù)據(jù)中心發(fā)生火災(zāi),大火在大約 8 小時(shí)后被撲滅。經(jīng)調(diào)查發(fā)現(xiàn),安裝在地下三層電氣設(shè)備室的 5 個(gè)電池機(jī)架全部燒毀,電池和機(jī)架附近似乎因電氣因素失火。本次火災(zāi)導(dǎo)致約 3.2 萬個(gè)服務(wù)器癱瘓,數(shù)千萬用戶服務(wù)受到影響。數(shù)據(jù)中心失火后,包括 Kakao Talk 在內(nèi)的 Kakao 系列服務(wù)中斷了一天左右才逐步恢復(fù)。火災(zāi)之后,韓國科技部長官李宗昊就數(shù)據(jù)中心失火導(dǎo)致網(wǎng)絡(luò)平臺(tái)癱瘓一事致歉,幾天之后,Kakao 聯(lián)席 CEO 也因此引咎辭職。
法國云巨頭 OVH 也曾因 UPS(不間斷電源)起火導(dǎo)致一處數(shù)據(jù)中心下線。2021 年 3 月,這家法國運(yùn)營商的 SBG2 數(shù)據(jù)中心發(fā)生波及整棟大樓的起火事故,導(dǎo)致該區(qū)域的 4 個(gè)數(shù)據(jù)中心,一個(gè)被完全燒毀,另有一個(gè)部分受損。起火后,癱瘓的法國政府、企業(yè)與公共事業(yè)網(wǎng)站達(dá)到約 360 萬個(gè),一些游戲開發(fā)商在歐洲的業(yè)務(wù)也受到影響,部分位于該數(shù)據(jù)中心的服務(wù)器被燒毀,其中游戲《Rust》表示,25 臺(tái)歐洲服務(wù)器完全損毀,沒有備份,數(shù)據(jù)無法被修復(fù)。事后,超過 130 名客戶加入了集體訴訟,指責(zé) OVHcloud 未盡充分義務(wù),且沒有為受損失的企業(yè)提供足夠的賠償。該公司遲遲不披露起火原因,并堅(jiān)稱必須等待官方報(bào)告。在火災(zāi)發(fā)生一年后,Bas-Rhin 消防局發(fā)布了一份調(diào)查報(bào)告,強(qiáng)烈批評(píng)這家法國運(yùn)營商的設(shè)施。由事故調(diào)查報(bào)告可知,這座數(shù)據(jù)中心存在相當(dāng)多的消防隱患,包括采用標(biāo)稱耐火僅一小時(shí)的木質(zhì)天花板、未配備自動(dòng)滅火裝置、也沒有通用電氣切斷開關(guān)。更讓消防人員遺憾的是,這處設(shè)施還有一種自然冷卻設(shè)計(jì),這也創(chuàng)造了可增加火勢(shì)的 “煙囪效應(yīng)”。