杭州核酸采集系統(tǒng)宕機,究竟是誰的鍋?
時間:2023-07-15 05:48:02 | 來源:網(wǎng)站運營
時間:2023-07-15 05:48:02 來源:網(wǎng)站運營
杭州核酸采集系統(tǒng)宕機,究竟是誰的鍋?:2022年9月2日,杭州核酸采集系統(tǒng)連續(xù)中斷服務(wù)了兩次,累計中斷時間在兩個小時以上,大白們只能把手機(采集終端)高舉上天,希望信號能好一點,這場景真是程序員之恥。
這種影響上千萬人核酸采集的系統(tǒng)故障,屬于特別重大網(wǎng)絡(luò)與信息安全事件,按規(guī)則要求,需要啟動 I 級響應(yīng),也必須要有人為此事負責(zé)。
但是,杭州這次竟然在技術(shù)層面上出現(xiàn)了「羅生門」,涉事方為了避免承擔(dān)主要責(zé)任,開始各執(zhí)一詞,相互甩鍋,東軟發(fā)文《東軟集團聲明_科技熱線[1]》說是網(wǎng)絡(luò)故障導(dǎo)致的,而浙江通信管理局卻發(fā)文說網(wǎng)絡(luò)通信一切正常,那責(zé)任究竟是誰的?
事實上,無論浙江通信管理局還是東軟,既然敢在這種特別重大事件上,如此強硬地發(fā)文表示自己無責(zé),那大概率可能真的不是他們的「主要責(zé)任」。
在狼人殺里,誰沒強硬發(fā)聲誰就心虛,誰沒有斬釘截鐵地論證自己是好人,誰就有可能是狼。
在這場羅生門里,可并不是僅有浙江通信管理局和東軟兩方,還有關(guān)鍵幾方,比如杭州市大數(shù)據(jù)中心(杭州市網(wǎng)絡(luò)理政中心)承建的杭州市政務(wù)云。
摸索真實原因我傾向于東軟沒說謊、只可能隱瞞了部分真相。原因是日志系統(tǒng)還在,東軟的謊言太容易被拆穿了。
核酸采集系統(tǒng)必然是部署在政務(wù)云上,所以核酸采集系統(tǒng)的連接日志、防火墻日志、數(shù)據(jù)庫日志都在政務(wù)云上面,東軟就算想篡改,難道瞞得過天府軟件園10萬名程序員?
其實東軟的聲明里面,已經(jīng)暗戳戳的把責(zé)任方點出來了,見下圖
浙江通信管理局身上本來就沒有鍋,他們的核心目標(biāo)是證明自己完成了份內(nèi)的工作,只要老百姓別罵通信運營商和主管部門就行。
所以浙江通信管理局在公告中,列出了具體的通信應(yīng)急保障人數(shù)、應(yīng)急保障工作內(nèi)容,并且承諾移動通信絕對沒有問題。
事實上,在核酸采集系統(tǒng)中斷的時候,排隊的杭州人民該刷某信的刷某信,該看某音的看某音,這就已經(jīng)說明移動通信網(wǎng)絡(luò)沒有問題了。
手機通過4G/5G網(wǎng)絡(luò)連接到接入服務(wù)器這一段,明顯是通暢的,那問題就只能出在接入服務(wù)器到數(shù)據(jù)庫服務(wù)器這個階段——這部分是由杭州政務(wù)云負責(zé)保障的。
杭州市政務(wù)云提供電子政務(wù)外網(wǎng)的網(wǎng)絡(luò)服務(wù),包括在政務(wù)外網(wǎng)DMZ區(qū)的負載均衡、應(yīng)用服務(wù)器、防火墻以及政務(wù)外網(wǎng)數(shù)據(jù)庫服務(wù)器之間的網(wǎng)絡(luò)。
如上圖所示,只有左邊紅框里的網(wǎng)絡(luò),也就是智能手機上網(wǎng)這一塊的服務(wù),是由通信管理局負責(zé)的;而右側(cè)紅框里,政務(wù)外網(wǎng)的網(wǎng)絡(luò)、安全設(shè)備和服務(wù)器,全是由杭州政務(wù)云負責(zé)的。
政務(wù)外網(wǎng)是相對于政務(wù)專網(wǎng)、政務(wù)內(nèi)網(wǎng)而言的,并不在公網(wǎng)上,可以理解為政府部門的內(nèi)網(wǎng)中,離公網(wǎng)最近的一張網(wǎng)絡(luò)。政務(wù)外網(wǎng)被防火墻分隔為外部DMZ區(qū)和內(nèi)部安全區(qū),我們能正常訪問的,也只有政務(wù)外網(wǎng)DMZ區(qū)的特定IP和端口。而核酸采集系統(tǒng)系統(tǒng),一般都部署在政務(wù)外網(wǎng)上,只有接口服務(wù)器放在DMZ區(qū),可以自由訪問。
大家千萬不要看見政務(wù)外網(wǎng)四個字,就以為政務(wù)外網(wǎng)跟門戶網(wǎng)站一樣可以隨便訪問,事實上政務(wù)外網(wǎng)的安全措施一點都不低。比如限制IP頻繁登陸、抗DDoS攻擊,都是防火墻的標(biāo)準操作。
然后我們再看這張截圖,有關(guān)部門在呼吁市民把手機調(diào)成飛行模式,不要占用基站信號通道,而且提到在某些區(qū)縣試用的時候,效果不錯。這是個非常有價值的線索。
其實讓大家開飛行模式,不是基站信號通道不足的問題,一個小區(qū)也就2、3000人,現(xiàn)在不管是5G還是應(yīng)急通信車,都能有效保障居民的移動通信;飛行模式有助于減少通往政務(wù)外網(wǎng)防火墻的瞬時流量,這樣就不會觸發(fā)網(wǎng)絡(luò)安全機制了。
因為我們用移動4G/5G上網(wǎng)的時候,手機終端是不可能獲得公網(wǎng)IPv4地址的,而只能獲得一個由運營商分配的172.x.x.x的內(nèi)網(wǎng)地址,一批內(nèi)網(wǎng)地址可能只有一個公網(wǎng)IP作為出口,大家也可以打開
http://www.ip138.com看看自己手機在公網(wǎng)上的真實IP。
如果在一個區(qū)域內(nèi),有幾千人同時用移動端訪問某個網(wǎng)站,網(wǎng)站服務(wù)端一側(cè)能看到的,很可能就是某個中國聯(lián)通/移動的IP在短時間內(nèi),帶著不同的頭文件,訪問了幾千次。
網(wǎng)絡(luò)安全配置問題應(yīng)對這種場景對互聯(lián)網(wǎng)公司是玩兒一樣,可對于政務(wù)網(wǎng)來說,情況就大不一樣了——大家也看到了西北工業(yè)大學(xué)被美國網(wǎng)絡(luò)攻擊的事兒——政務(wù)網(wǎng)和公網(wǎng)之間有嚴格的安全策略,就是為了阻斷黑客入侵。
政務(wù)外網(wǎng)的DMZ區(qū)(非軍事區(qū))和政務(wù)外網(wǎng)之間,有防火墻、入侵檢測、入侵防御等設(shè)備,并且做了嚴格的安全服務(wù)配置,比如防DDoS攻擊就會在突然出現(xiàn)幾千個IP訪問的時候,直接把被訪問的IP離線;比如反爬蟲機制,會限制同一IP在一段時間內(nèi)的訪問次數(shù)。
杭州有多少人在用這個系統(tǒng)呢?杭州2000萬人,如果計劃一天(16小時內(nèi))完成篩查,那么一小時要完成125萬人的采樣,按每個采樣臺(2人)每小時采集120人估算,至少需要20800人;不能讓大白能穿著防護服連續(xù)工作16小時,所以還要安排換班,所以需要4萬人的一線核酸采樣隊伍,在系統(tǒng)剛剛上線的時候,可能有4萬人都在嘗試登錄。
按照每個采樣臺(2個采樣人員)每小時采集120人的標(biāo)準測算采樣人員數(shù)量,測算公式為:核酸采樣人員數(shù)(單位:人)=人口數(shù)÷360;采用10合1混采檢測技術(shù)的,檢測能力測算公式為:核酸檢測力量(單位:管/日)=人口數(shù)÷10×2;采用20合1混采檢測技術(shù)的,檢測能力測算公式為:核酸檢測力量(單位:管/日)=人口數(shù)÷20×2。
——來源:2022年關(guān)于印發(fā)區(qū)域新型冠狀病毒核酸檢測組織實施指南(第三版)的通知[2]
東軟的系統(tǒng)是9月2日線后,發(fā)生了響應(yīng)延遲、卡頓現(xiàn)象,有可能是前端負載均衡服務(wù)器的數(shù)量配置不足,4萬多人的流量洪峰同時涌過來,而且如果登陸不上,用戶還會不停刷新,導(dǎo)致http請求在不斷累積;也有可能是用于負載均衡的云主機沒有配置反親和性,幾臺云主機都在同一臺物理機上,導(dǎo)致虛擬機IO不足,最后請求丟失。
杭州新冠指揮部回應(yīng)說「9月2日17時30分左右,我市核酸檢測系統(tǒng)因?qū)Χ虝r超大并發(fā)量預(yù)估不足,導(dǎo)致系統(tǒng)出現(xiàn)卡頓問題。故障發(fā)生后,我們立即組織專業(yè)技術(shù)團隊與承建商一起排查原因,積極搶修,系統(tǒng)在增加多臺服務(wù)器、優(yōu)化關(guān)鍵參數(shù)設(shè)置后逐步恢復(fù),但還存在不確定性,我們正在努力加以解決」
這就說明9月2號服務(wù)中斷的原因,是前端負載均衡服務(wù)器或者后端應(yīng)用服務(wù)器的數(shù)量不足;另外優(yōu)化關(guān)鍵參數(shù)這個,說明之前他們有些參數(shù)配置錯了。
對于9月3日13時出現(xiàn)的問題,東軟的公告中說是網(wǎng)絡(luò)出現(xiàn)故障,恢復(fù)網(wǎng)絡(luò)連接后,系統(tǒng)在14時左右恢復(fù)運行。這個熟悉的問題,極有可能是防火墻配置了DDoS防護,面對幾萬個極度相似的請求,直接判定為DDoS攻擊,然后把網(wǎng)絡(luò)請求阻斷了。
也有可能是防火墻或者其他安全設(shè)備配置了反爬蟲,限制同一IP訪問次數(shù),一旦某個IP反復(fù)訪問接口服務(wù)器達到一定次數(shù),就自動把IP Ban掉一段時間,比如1小時。而采樣人員用的是移動網(wǎng)絡(luò),很可能在某個區(qū)域的幾百人都在使用同一IP連接接口服務(wù)器,于是很快就觸發(fā)了反爬蟲機制。
別問我為什么知道,因為這種事情在浙江也發(fā)生過,有經(jīng)驗的。
但要是說鍋全在杭州政務(wù)云,那也太欺負大數(shù)據(jù)局和杭州政務(wù)云了,畢竟這種涉及到上千萬人排隊、檢測的關(guān)鍵信息系統(tǒng)上線之前,肯定需要經(jīng)過試運行、全鏈路壓力測試、雙軌并行一段時間,確保服務(wù)平穩(wěn)可用后才能上線。
每個城市的政務(wù)云架構(gòu)都是大同小異的,但是每個城市的安全策略配置可能完全不一樣,東軟在17個省、120多個地市部署了核酸采集系統(tǒng)應(yīng)用,不代表換一個2000萬人口的城市就可以輕松拿下。
面對4萬名采樣人員用戶和2000萬待采樣居民,新上線的東軟全場景病原體監(jiān)測系統(tǒng)敢跳過全鏈路壓力測試環(huán)節(jié),直接上線,然后馬上就開始支撐全城大篩,對IT的要求也過分超過常理,現(xiàn)實也就必然會打臉。
東軟作為軟件系統(tǒng)的供應(yīng)商和實施方,負責(zé)向杭州政務(wù)云提出服務(wù)器和網(wǎng)絡(luò)環(huán)境的要求,并在杭州政務(wù)云提供的政務(wù)外網(wǎng)云主機上安裝應(yīng)用系統(tǒng)和數(shù)據(jù)庫。在系統(tǒng)調(diào)試完成后,東軟應(yīng)按照政務(wù)外網(wǎng)的要求完成安全檢查、壓力測試和系統(tǒng)加固工作,待系統(tǒng)服務(wù)穩(wěn)定后,核酸采集系統(tǒng)才能正式上線。
如果說東軟系統(tǒng)上線前,已經(jīng)通過了壓力測試,那這次系統(tǒng)服務(wù)中斷,就是東軟100%的鍋;但顯然這次東軟系統(tǒng)上線前沒有完成全鏈路壓力測試,也沒有小范圍試用,東軟強行上線,身上當(dāng)然有鍋。
杭州政務(wù)云作為服務(wù)器、網(wǎng)絡(luò)基礎(chǔ)架構(gòu)、安全設(shè)備的提供方,如果沒有跟東軟討論清楚潛在的卡點,而是簡單的提供虛擬機、負載均衡、防火墻,開通幾個端口,卻不告訴東軟現(xiàn)在的安全策略是怎么配置的,身上肯定也有鍋。
關(guān)鍵是東軟也好,杭州政務(wù)云也好,有沒有跟指揮部領(lǐng)導(dǎo)提前說明不測試就上線的風(fēng)險?如果壓根沒說,那東軟和杭州政務(wù)云兩個單位應(yīng)該平分100%的鍋;如果風(fēng)險情況已經(jīng)以文件形式流傳到指揮部了,那鍋就在指揮部。
單一來源采購
看東軟和杭州政務(wù)云的幾個招標(biāo)就能發(fā)現(xiàn),他們挺喜歡用單一來源采購方式的。
1、杭州市衛(wèi)生健康信息中心這里2022年5月31日,緊急使用單一來源的方式采購了東軟的這套系統(tǒng),鏈接在這里:杭州市衛(wèi)生健康信息中心全場景疫情病原體檢測信息系統(tǒng)[3]。然后我在浙江省采購中心和杭州市采購中心網(wǎng)站上,都沒找到這套系統(tǒng)的單一來源采購價格公示,不知道有沒有讀者找到了。
2、杭州政務(wù)云同樣是使用單一來源采購的方式,采購了新華三云、浪潮云、曙光云作為政務(wù)云,看起來新華三云應(yīng)該部署在政務(wù)外網(wǎng),浪潮云和曙光云分別部署在政務(wù)內(nèi)網(wǎng)和政務(wù)專網(wǎng)。
私有云平臺這種滿大街都是的東西,為啥非要單一來源采購,這我就不明白了。1.45億元,杭州市政務(wù)云、單一來源公示:曙光云、新華三云、浪潮云_騰訊新聞[4]
3、杭州政務(wù)云的微軟操作系統(tǒng),也是直接以單一來源采購的方式,從杭州一家代理商處購買了微軟的操作系統(tǒng)和數(shù)據(jù)庫。杭州市大數(shù)據(jù)中心(杭州市網(wǎng)絡(luò)理政中心)2022年度杭州市政務(wù)云服務(wù)采購項目-微軟操作系統(tǒng)和數(shù)據(jù)庫服務(wù)采購實行單一來源采購方式的公示 - 墨天輪[5]
相比公開招投標(biāo),單一來源采購總是需要領(lǐng)導(dǎo)承擔(dān)一點質(zhì)疑,可見大家都是勇于擔(dān)當(dāng)、敢于任事的,就像下圖這位站在凳子上高舉手機的疫情防控人員一樣。但是,誰該為這場特別重大網(wǎng)絡(luò)與信息安全事件負責(zé)呢?
來源:公眾號任易
關(guān)鍵詞:究竟,采集,系統(tǒng),杭州