「Masakari優(yōu)化」
時(shí)間:2022-03-07 14:42:01 | 來(lái)源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-07 14:42:01 來(lái)源:行業(yè)動(dòng)態(tài)
Masakari項(xiàng)目是專注于OpenStack云平臺(tái)高可用的開源項(xiàng)目,實(shí)現(xiàn)了云主機(jī)、關(guān)鍵進(jìn)程和物理機(jī)三個(gè)不同層次的高可用,主要通過Monitor檢測(cè)云主機(jī)、關(guān)鍵進(jìn)程和物理主機(jī)的故障,一旦檢測(cè)到故障,就觸發(fā)故障恢復(fù)機(jī)制,恢復(fù)云主機(jī)和物理主機(jī)的重要業(yè)務(wù)。
浪潮云海OS研發(fā)團(tuán)隊(duì)則通過客戶訴求、現(xiàn)場(chǎng)問題反饋等方式,有針對(duì)性的對(duì)Masakari項(xiàng)目進(jìn)行深入研究和探討,設(shè)計(jì)了針對(duì)云主機(jī)、關(guān)鍵進(jìn)程和物理機(jī)等多層面故障檢測(cè)、判斷處理矩陣,能有效應(yīng)對(duì)云平臺(tái)可能觸發(fā)的故障場(chǎng)景。
在最新的Wallaby版本,技術(shù)團(tuán)隊(duì)在主機(jī)狀態(tài)檢測(cè)機(jī)制的基礎(chǔ)上進(jìn)行創(chuàng)新,提出并實(shí)現(xiàn)了主機(jī)連續(xù)檢測(cè)機(jī)制,通過檢測(cè)主機(jī)的網(wǎng)絡(luò)連接狀態(tài)以確定主機(jī)是否故障,并設(shè)定故障節(jié)點(diǎn)云主機(jī)的疏散策略,增強(qiáng)了云平臺(tái)的高可靠性。
圖4中(左)為Masakari項(xiàng)目原故障檢測(cè)機(jī)制,Monitor只探測(cè)一次,當(dāng)云平臺(tái)存在網(wǎng)絡(luò)抖動(dòng)時(shí)存在誤判風(fēng)險(xiǎn);圖4(右)為改進(jìn)后的故障檢測(cè)機(jī)制,通過多次探測(cè)平滑預(yù)測(cè)物理主機(jī)的節(jié)點(diǎn)狀態(tài),管理員可設(shè)定Monitor探測(cè)閾值,僅當(dāng)連續(xù)檢測(cè)到節(jié)點(diǎn)故障時(shí)才會(huì)觸發(fā)主機(jī)故障的高可用事件,提高主機(jī)故障檢測(cè)的可靠性。