非計劃的全站點故障恢復
時間:2023-06-30 14:09:01 | 來源:網(wǎng)站運營
時間:2023-06-30 14:09:01 來源:網(wǎng)站運營
非計劃的全站點故障恢復:在此場景中,一場自然災害侵襲了位于 杭州的主站點 1,導致站點 1 完全關閉。NSX 管理員將執(zhí)行到位于 杭州的輔助站點 2 的手動故障切換。
由于主站點是因無法預料的情況而關閉的,管理員不可能在實際故障發(fā)生之前執(zhí)行任何故障切換的準備工作。
NSX 管理員希望實現(xiàn)以下主要目標:
- 在站點 2 上以最短的停機時間實現(xiàn)整個站點的故障切換。
- 故障切換后,在站點 2 上保留站點 1 應用程序 IP 地址。
- 在站點 2 上自動恢復所有 Edge 接口設置和 BGP 協(xié)議配置設置。
數(shù)據(jù)恢復|服務器數(shù)據(jù)恢復|數(shù)據(jù)備份與恢復|災難恢復|數(shù)據(jù)存儲|數(shù)備份|雙機熱備|異地備份 www.xiaolin.cc注:- 管理員可以通過使用 vSphere Web Client 或運行 NSX REST API,手動執(zhí)行故障切換任務。此外,管理員可以通過運行包含要在故障切換期間運行的 API 的腳本文件來自動執(zhí)行某些故障切換任務。此場景介紹了使用 vSphere Web Client 的手動故障切換步驟。但是,在執(zhí)行任何步驟時,如果需要使用 CLI 或 NSX REST API,場景中也提供了充分的說明。
- 在此場景中,災難恢復工作流特定于前面所述的拓撲,其中具有一個主 NSX Manager 和一個輔助 NSX Manager。此場景不涉及具有多個輔助 NSX Manager 的工作流。
重要事項:如果在故障切換到輔助站點 2 的過程中打開主站點 1 的電源,請先使用此場景中的過程確保故障切換過程已完成。只有在徹底完成到輔助站點 2 的故障切換后,才能將所有工作負載還原或故障恢復到原始的主站點 1。有關故障恢復過程的詳細說明,請參見IT澶栧寘 鏈嶅姟鍣ㄨ櫄鎷熷寲 鏁版嵁瀛樺偍 鏁版嵁澶囦喚 鏁版嵁鎭㈠IT澶栧寘 鏈嶅姟鍣ㄨ櫄鎷熷寲 鏁版嵁瀛樺偍 鏁版嵁澶囦喚 鏁版嵁鎭㈠
前提條件- 在站點 1 和站點 2 上安裝 NSX Data Center 6.4.5 或更高版本。
- 在站點 1 和站點 2 上使用增強型鏈接模式部署 vCenter Server。
- 站點 1 和站點 2 滿足以下條件:
- 非 NSX 防火墻(如果有)上未配置任何應用程序特定的安全策略。
- 非 NSX 防火墻(如果有)上未配置任何應用程序特定的防火墻規(guī)則。
- 在這兩個 ESG 上禁用防火墻,因為會在 UDLR 上啟用 ECMP,并且可以確保允許所有流量。
- 在故障切換之前,站點 2 滿足以下條件:
- 已在 ESG 上按照站點 1 上的配置手動配置了類似的下行鏈路接口。
- 已在 ESG 上按照站點 1 上的配置手動完成了類似的 BGP 配置。
- 當主站點 1 處于活動狀態(tài)或正在運行時,ESG 處于電源關閉狀態(tài)。
過程- 確認主站點 1 上的 NSX Manager 已關閉。
- 在安裝和升級頁面上,導航到管理 (Management) > NSX Manager (NSX Managers)。
- 如果您在當前的瀏覽器會話中刷新 NSX Manager 頁面,主 NSX Manager 的角色會更改為未知。
- 如果您從 vSphere Web Client 注銷并重新登錄,或者啟動新的 vSphere Web Client 瀏覽器會話,NSX Manager 頁面上將不會再顯示主 NSX Manager。
- 導航到網(wǎng)絡和安全 (Networking & Security) > 儀表板 (Dashboard) > 概覽 (Overview)。
- 如果您在當前的瀏覽器會話中刷新儀表板頁面,將顯示以下錯誤消息:無法與 NSX Manager 建立連接。請聯(lián)系管理員 (Could not establish communication with NSX Manager. Please contact administrator.)。。此錯誤表示無法再訪問主 NSX Manager。
- 如果您從 vSphere Web Client 注銷并重新登錄,或者啟動新的 vSphere Web Client 瀏覽器會話,NSX Manager 下拉菜單中將不會再提供主 NSX Manager。
- 將輔助 NSX Manager 升級到主要角色。
- 在安裝和升級頁面上,導航到管理 (Management) > NSX Manager (NSX Managers)。
- 選擇輔助 NSX Manager。
- 單擊操作 (Actions) > 從主 NSX Manager 斷開連接 (Disconnect from Primary NSX Manager)。當系統(tǒng)提示是否繼續(xù)執(zhí)行斷開連接操作時,單擊是 (Yes)。
數(shù)據(jù)恢復|服務器數(shù)據(jù)恢復|數(shù)據(jù)備份與恢復|災難恢復|數(shù)據(jù)存儲|數(shù)備份|雙機熱備|異地備份 www.xiaolin.cc此時,輔助 NSX Manager 會與主 NSX Manager 斷開連接,然后進入 轉換角色。
- 單擊操作 (Actions) > 分配主要角色 (Assign Primary Role)。
此時,站點 2 上的輔助 NSX Manager 會升級為主要角色。
- 小心:由于在 UDLR 上禁用了本地輸出,因此,僅在原始主站點(站點 1)上部署 UDLR 控制虛擬機(Edge 設備虛擬機)。在站點 1 發(fā)生故障之前,UDLR 控制虛擬機在輔助站點(站點 2,現(xiàn)已升級為主站點)上不可用。因此,在重新部署 NSX Controller 群集之前,請在升級的主站點(站點 2)上重新部署 UDLR 控制虛擬機。
- 如果在部署 UDLR 控制虛擬機之前部署了控制器節(jié)點,則會清除 UDLR 上的轉發(fā)表。這樣,在站點 2 上部署第一個控制器節(jié)點之后,系統(tǒng)會立即停機。這種情況下可能會導致通信中斷。要避免出現(xiàn)這種情況,請先部署 UDLR 控制虛擬機,然后再部署 NSX Controller 節(jié)點。
- 打開處于關閉電源狀態(tài)的 NSX Edge 的電源,并在輔助站點 2(升級的主站點)上部署 UDLR 控制虛擬機(Edge 設備虛擬機)。
有關部署 UDLR 控制虛擬機的說明,請參見 IT澶栧寘 鏈嶅姟鍣ㄨ櫄鎷熷寲 鏁版嵁瀛樺偍 鏁版嵁澶囦喚 鏁版嵁鎭㈠IT澶栧寘 鏈嶅姟鍣ㄨ櫄鎷熷寲 鏁版嵁瀛樺偍 鏁版嵁澶囦喚 鏁版嵁鎭㈠。
部署 UDLR 控制虛擬機時,請配置以下資源設置:
- 選擇站點 2 作為數(shù)據(jù)中心。
- 選擇群集/資源池。
- 選擇數(shù)據(jù)存儲。
注:在部署 UDLR 控制虛擬機后,將會在站點 2 中自動恢復以下配置設置:
- BGP 協(xié)議路由配置
- BGP 密碼配置
- 上行鏈路接口和內部接口設置
- 在站點 2(升級的主站點)上部署三個 NSX Controller 群集節(jié)點。
有關部署 NSX Controller 的詳細說明,請參見 《跨 vCenter NSX 安裝指南》。
- 更新 NSX Controller 群集狀態(tài)。
- 在安裝和升級頁面上,單擊 NSX Manager (NSX Managers)。
- 選擇已升級的主 NSX Manager。
- 單擊操作 (Actions) > 更新控制器狀態(tài) (Update Controller State)。
- 強制同步站點 2 上每個群集中的路由服務。
- 在安裝和升級頁面上,單擊主機準備 (Host Preparation)。
- 選擇已升級的主 NSX Manager。
- 一次選擇一個群集,然后單擊操作 (Actions) > 強制同步服務 (Force Sync Services)。
- 選擇路由 (Routing),然后單擊確定 (OK)。
- 將工作負載虛擬機從站點 1 遷移到站點 2。
數(shù)據(jù)恢復|服務器數(shù)據(jù)恢復|數(shù)據(jù)備份與恢復|災難恢復|數(shù)據(jù)存儲|數(shù)備份|雙機熱備|異地備份 www.xiaolin.cc注:工作負載虛擬機將繼續(xù)存在于站點 1 上。因此,您必須手動將該工作負載虛擬機遷移到站點 2。IT澶栧寘 鏈嶅姟鍣ㄨ櫄鎷熷寲 鏁版嵁瀛樺偍 鏁版嵁澶囦喚 鏁版嵁鎭㈠IT澶栧寘 鏈嶅姟鍣ㄨ櫄鎷熷寲 鏁版嵁瀛樺偍 鏁版嵁澶囦喚 鏁版嵁鎭㈠
結果手動恢復 NSX 組件以及從主站點(站點 1)故障切換到輔助站點(站點 2)的過程已完成。
下一步做什么通過在站點 2(升級的主站點)上執(zhí)行以下步驟,確認故障切換到站點 2 的過程已 100% 完成:
- 檢查 NSX Manager 是否具有主要角色。
- 檢查是否在 UDLR 上部署了控制虛擬機(Edge 設備虛擬機)。
- 檢查是否所有控制器群集節(jié)點的狀態(tài)均為已連接。
- 檢查主機準備狀態(tài)是否為綠色。
- 登錄到 UDLR 控制虛擬機(Edge 設備虛擬機)的 CLI 控制臺,然后執(zhí)行以下步驟:
- 運行 show ip bgp neighbors 命令檢查是否已建立所有 BGP 鄰居,并且其狀態(tài)為“已啟動”。
- 運行 show ip route bgp 命令檢查是否可從所有 BGP 鄰居中發(fā)現(xiàn)所有 BGP 路由。
在故障切換到站點 2 的過程完成后,所有工作負載在輔助站點(升級的主站點)上運行,并且流量通過站點 2 上的 UDLR 和 NSX Edge 進行路由。