?當(dāng)?shù)貢r(shí)間7月2日凌晨1點(diǎn)35分開始,日本運(yùn)營(yíng)商KDDI的移動(dòng)網(wǎng)絡(luò)發(fā)生大規(guī)模通信故障,導(dǎo)致全日本范圍內(nèi)無(wú)法撥打電話、無(wú)法收發(fā)短信、數(shù)據(jù)通信變慢。
此次事故影響范圍大,持續(xù)時(shí)間長(zhǎng),影響用戶數(shù)量達(dá)3915萬(wàn),故障一直持續(xù)到7月4日下午才基本完全恢復(fù),給日本全社會(huì)造成了極大的不便和損失,也是KDDI有史以來(lái)遭遇的最大一次網(wǎng)絡(luò)系統(tǒng)故障。
【資料圖】
故障發(fā)生后,KDDI高層及時(shí)召開新聞發(fā)布會(huì),向廣大深受影響的個(gè)人和企業(yè)用戶鞠躬致歉,并表示考慮賠償損失。
那究竟是什么原因造成了此次大規(guī)模通信故障?看完KDDI的報(bào)告后,發(fā)人深省。
故障原因一:核心路由器割接失敗7月2日凌晨,KDDI組織工程師對(duì)連接全國(guó)移動(dòng)核心網(wǎng)和中繼網(wǎng)絡(luò)的一個(gè)核心路由器進(jìn)行割接,將老舊的核心路由器更換為新產(chǎn)品。
不幸的是,通信人最擔(dān)心的噩夢(mèng)發(fā)生了——割接失敗了。在更換核心路由器的過(guò)程中,新的核心路由器出現(xiàn)了不明原因的故障。
搞通信的伙伴們都知道,核心路由器位于網(wǎng)絡(luò)核心位置,是整個(gè)網(wǎng)絡(luò)的“交通樞紐”,不僅性能強(qiáng)悍、價(jià)格昂貴,且需時(shí)時(shí)刻刻保持穩(wěn)定運(yùn)行,否則,一旦出現(xiàn)問(wèn)題,動(dòng)輒可能影響全網(wǎng)數(shù)百萬(wàn)甚至數(shù)千萬(wàn)用戶。
正因如此,核心路由器割接好比為活人換“心臟”,是一項(xiàng)極具挑戰(zhàn)的工作,也對(duì)要更換的新產(chǎn)品的成熟性、穩(wěn)定性、互聯(lián)互通性等能力要求極高。
但KDDI偏偏在這項(xiàng)要求極其謹(jǐn)慎的工作上掉了鏈子,接下來(lái)的后果當(dāng)然就相當(dāng)嚴(yán)重了——
由于新核心路由器無(wú)法將語(yǔ)音流量正確路由到VoLTE交換節(jié)點(diǎn),直接導(dǎo)致部分VoLTE語(yǔ)音業(yè)務(wù)中斷15分鐘。
故障原因二:信令風(fēng)暴擊潰VoLTE網(wǎng)絡(luò)核心路由器割接失敗,這場(chǎng)景簡(jiǎn)直不敢想象,隔著屏幕都能嚇出冷汗!
怎么辦?趕緊回退唄。KDDI的工程師們快速啟動(dòng)了回退操作,于7月2日凌晨1點(diǎn)50分將連接重新切換回舊的核心路由器。
但更大的問(wèn)題發(fā)生了。
回退后,“由于VoLTE終端每50分鐘進(jìn)行一次位置注冊(cè)”,大量終端向VoLTE交換節(jié)點(diǎn)發(fā)起位置注冊(cè)信令,以重新連接至網(wǎng)絡(luò)。海量信令集中突發(fā),很快引發(fā)VoLTE交換節(jié)點(diǎn)擁塞,致使大量用戶無(wú)法進(jìn)行VoLTE通信。
同時(shí),移動(dòng)網(wǎng)絡(luò)中有一個(gè)“用戶數(shù)據(jù)庫(kù)”,負(fù)責(zé)存儲(chǔ)用戶的簽約數(shù)據(jù)和位置信息,由于VoLTE交換節(jié)點(diǎn)擁塞,“注冊(cè)在用戶數(shù)據(jù)庫(kù)的位置信息無(wú)法反映在VoLTE交換機(jī)上”,出現(xiàn)數(shù)據(jù)不匹配問(wèn)題,也導(dǎo)致很多用戶無(wú)法通信和撥打電話。
針對(duì)此情況,KDDI于7月2日凌晨3:00后開始從無(wú)線側(cè)、VoLTE核心網(wǎng)側(cè)同時(shí)實(shí)施流量控制策略,以及通過(guò)斷開PGW的方式減輕用戶數(shù)據(jù)庫(kù)負(fù)荷,以緩解網(wǎng)絡(luò)擁塞,并在PGW采用“會(huì)話重置”措施解決用戶數(shù)據(jù)庫(kù)中的數(shù)據(jù)不一致問(wèn)題。
因?yàn)閷?shí)施流量控制,接下來(lái)導(dǎo)致了全國(guó)范圍內(nèi)的數(shù)據(jù)通信和語(yǔ)音通話難以連接。
接下來(lái),KDDI開始緊張的網(wǎng)絡(luò)恢復(fù)工作。7月3日上午11點(diǎn),KDDI宣布日本西部基本完成網(wǎng)絡(luò)修復(fù)工作。下午5點(diǎn)30分,日本東部基本完成。但仍然有一些用戶難以進(jìn)行數(shù)據(jù)通信和語(yǔ)音通話。
直到7月4日下午4點(diǎn),距離故障發(fā)生62個(gè)小時(shí)后,KDDI表示已在全國(guó)范圍內(nèi)基本恢復(fù)。
發(fā)人深省類似的重大網(wǎng)絡(luò)故障在日本并不是頭一次。
2021年10月14日,日本另一家運(yùn)營(yíng)商N(yùn)TT DoCoMo的移動(dòng)網(wǎng)絡(luò)也發(fā)生過(guò)全國(guó)性的重大通信事故,導(dǎo)致大量手機(jī)用戶無(wú)法進(jìn)行通話和數(shù)據(jù)通信。
此次事故同樣因?yàn)楦罱邮『蠡赝瞬僮鳎l(fā)信令流量大爆發(fā),導(dǎo)致網(wǎng)絡(luò)大擁塞。
具體情況是,NTT DoCoMo在替換用于存儲(chǔ)物聯(lián)網(wǎng)終端設(shè)備的用戶和位置信息的網(wǎng)絡(luò)設(shè)備時(shí)出現(xiàn)了問(wèn)題,然后立即啟動(dòng)回退操作,重新倒回到舊設(shè)備。
但這一回退操作,引發(fā)了大量物聯(lián)網(wǎng)終端向舊設(shè)備重新發(fā)起位置注冊(cè)信息,洶涌而來(lái)的“信令風(fēng)暴”快速引發(fā)了網(wǎng)絡(luò)擁塞,并波及3G/4G/5G網(wǎng)絡(luò)的語(yǔ)音和數(shù)據(jù)分組核心設(shè)備,導(dǎo)致大量用戶無(wú)法通話和數(shù)據(jù)通信。
與NTT DoCoMo不同的是,KDDI此次是因?yàn)楹诵穆酚善鞲罱邮∫穑夜收铣掷m(xù)時(shí)間要長(zhǎng)很多。
但值得一提的是,KDDI似乎并非沒(méi)有吸取DoCoMo的教訓(xùn)。
KDDI在全日本范圍內(nèi)擁有6個(gè)交換中心,共18個(gè)VoLTE交換節(jié)點(diǎn),且交換中心內(nèi)的VoLTE交換節(jié)點(diǎn)是相互冗余備份的。而本次因核心路由器割接導(dǎo)致VoLTE業(yè)務(wù)中斷的只是其中一個(gè)交換中心的VoLTE交換節(jié)點(diǎn)。
“我們做過(guò)壓力測(cè)試,因?yàn)橛腥哂鄠浞荩词挂粋€(gè)交換中心范圍內(nèi)的所有終端同時(shí)發(fā)起重新連接請(qǐng)求,也不會(huì)發(fā)生擁塞。”
KDDI表示,“但不知道什么原因,結(jié)果還是發(fā)生了擁塞,我們還沒(méi)有完全搞清楚到底是哪里出了問(wèn)題。”
但愿KDDI最終能徹底找出此次事故的所有原因。也希望通信業(yè)再也不要重蹈覆轍。因?yàn)椋卮缶W(wǎng)絡(luò)故障,這六個(gè)大字,對(duì)于通信業(yè)而言,實(shí)在太可怕了。?
標(biāo)簽:
- 世界關(guān)注:一份重大通信故障報(bào)告,發(fā)人深省
- 【世界獨(dú)家】HTTP 3.0徹底放棄TCP,TCP到底做錯(cuò)了什么?
- 要聞速遞:懂事的網(wǎng)絡(luò)工程師,早該學(xué)會(huì)處理這種故障了
- 【環(huán)球熱聞】六分鐘看完 BGP 協(xié)議
- 小米公布2022款筆記本配置:搭載12代酷睿處理器
- 即時(shí)焦點(diǎn):圖解網(wǎng)絡(luò):什么是虛擬路由器冗余協(xié)議 VRRP?
- 全球熱訊:如何在用戶離開頁(yè)面時(shí)可靠地發(fā)送 HTTP 請(qǐng)求
- 今日視點(diǎn):一文了解 OSI 模型是什么?
- 速看:你準(zhǔn)備好迎接400G以太網(wǎng)了嗎?
- 天天動(dòng)態(tài):5G技術(shù)如何提升人工智能的能力