華云·云場(chǎng)景應(yīng)用詳解|疫情下硬件運(yùn)維人員如何實(shí)現(xiàn)“遠(yuǎn)程辦公”
華云·云場(chǎng)景應(yīng)用詳解|疫情之下,硬件運(yùn)維人員如何實(shí)現(xiàn)“遠(yuǎn)程辦公”
新冠疫情防控,極大地改變了我們的生活方式,“遠(yuǎn)程辦公”、“線上交流”的新型工作方式開始普及。對(duì)人力依賴極大的數(shù)據(jù)中心硬件設(shè)備運(yùn)維是否也能搭上“遠(yuǎn)程辦公”的便車,從容面對(duì)疫情變化,高效保障業(yè)務(wù)安全?安超DCM數(shù)據(jù)中心管理平臺(tái)利用帶外管理技術(shù),與運(yùn)維“打工人”一起探索遠(yuǎn)程運(yùn)維的可行性。
疫情下的硬件設(shè)備運(yùn)維挑戰(zhàn)
2020年,在全球新冠疫情持續(xù)緊張的情況下,遠(yuǎn)程辦公、在線網(wǎng)課、網(wǎng)購(gòu)/團(tuán)購(gòu)等線上工作和生活方式開始普及,IT服務(wù)業(yè)迎來了爆發(fā)式增長(zhǎng),各行業(yè)數(shù)據(jù)中心IT硬件設(shè)備數(shù)量也隨之激增。由于疫情期間居家辦公,異地核算檢測(cè)導(dǎo)致出差不便等等原因,對(duì)幾乎全部依賴人力的數(shù)據(jù)中心硬件運(yùn)維管理帶來了前所未有的挑戰(zhàn)。痛點(diǎn)總結(jié)如下:
1、設(shè)備數(shù)量成倍增加,品牌型號(hào)增多,管理復(fù)雜度指數(shù)級(jí)增長(zhǎng),經(jīng)驗(yàn)豐富的運(yùn)維人員嚴(yán)重不足,人力成本大幅攀升;
2、居家辦公無法巡檢,設(shè)備故障發(fā)現(xiàn)不及時(shí),安全隱患大;
3、日常資產(chǎn)管理和資產(chǎn)盤點(diǎn)工作無法開展,居家辦公無事可做;
4、異地出差受限,原廠支持難度增加,設(shè)備故障處理周期長(zhǎng),造成業(yè)務(wù)損失大;
5、數(shù)據(jù)中心全國(guó)分布,無高效遠(yuǎn)程管理軟件,異地機(jī)房管理難度大。
帶外運(yùn)維技術(shù)助力,硬件運(yùn)維管理“遠(yuǎn)程辦公”不是夢(mèng)
數(shù)據(jù)中心硬件運(yùn)維管理可分為帶外管理和帶內(nèi)管理兩種管理模式。
(1)帶內(nèi)管理
帶內(nèi)管理,即監(jiān)控管理信息與生產(chǎn)數(shù)據(jù)信息使用同一物理通道進(jìn)行傳送,主要是依賴于生產(chǎn)環(huán)境,如操作系統(tǒng),所提供的接口、驅(qū)動(dòng)來獲取底層硬件的狀態(tài)(正常/故障)信息,從而實(shí)現(xiàn)監(jiān)測(cè)。帶內(nèi)管理復(fù)用現(xiàn)有生產(chǎn)網(wǎng)絡(luò),在每臺(tái)設(shè)備的系統(tǒng)層安裝Agent,然后將硬件監(jiān)控信息通過SNMP系統(tǒng)服務(wù)發(fā)送給帶內(nèi)集中監(jiān)控平臺(tái)。
帶內(nèi)管理示意圖
傳統(tǒng)的帶內(nèi)管理及現(xiàn)場(chǎng)維護(hù)存在以下問題:
1、宿主機(jī)資源占用:帶內(nèi)管理會(huì)消耗生產(chǎn)網(wǎng)絡(luò)帶寬,極端情況下可能會(huì)導(dǎo)致網(wǎng)絡(luò)資源耗盡,引發(fā)生產(chǎn)事件。Agent在宿主機(jī)上占用部分生產(chǎn)設(shè)備的CPU、內(nèi)存資源,增加系統(tǒng)開銷。
2、現(xiàn)場(chǎng)維護(hù):部署服務(wù)器、升級(jí)設(shè)備微碼、物理重啟設(shè)備等工作等都需在機(jī)房現(xiàn)場(chǎng)實(shí)施。極端情況下,如設(shè)備宕機(jī)故障,需要到現(xiàn)場(chǎng)實(shí)施手動(dòng)物理重啟,導(dǎo)致生產(chǎn)事件問題處理滯后。
3、Agent版本維護(hù)困難:目前數(shù)據(jù)中心多數(shù)為混合架構(gòu),生產(chǎn)環(huán)境包含Linux、Windows、ESX、AIX、Solaris、docker等不同平臺(tái)眾多版本,帶內(nèi)管理Agent版本、兼容性維護(hù)工作量大。
4、不符合安全監(jiān)管要求:部分監(jiān)控Agent會(huì)用到特殊的系統(tǒng)服務(wù)及端口,會(huì)和生產(chǎn)環(huán)境某些應(yīng)用沖突(如JDK版本不一致、系統(tǒng)端口沖突等)。在安全等保要求較高的情況下,Agent的使用不符合安全管理規(guī)范。
(2)帶外管理
帶外管理主要是通過專門的網(wǎng)管通道實(shí)現(xiàn)對(duì)硬件設(shè)備狀態(tài)數(shù)據(jù)的獲取,與生產(chǎn)業(yè)務(wù)網(wǎng)絡(luò)相隔離,其核心原理在于通過不同的物理通道傳送管理數(shù)據(jù)和生產(chǎn)數(shù)據(jù),兩者互相獨(dú)立,互不影響。
帶外管理示意圖
帶外管理使用了IPMI協(xié)議,通過基板管理控制器(BMC)進(jìn)行交流,通過在設(shè)備內(nèi)部的傳感器對(duì)硬件進(jìn)行智能管理。無需通過操作系統(tǒng)進(jìn)行管理,允許進(jìn)行帶外服務(wù)器管理,生產(chǎn)網(wǎng)絡(luò)也無需負(fù)擔(dān)硬件狀態(tài)監(jiān)控?cái)?shù)據(jù)的傳輸任務(wù)。用戶可以利用IPMI監(jiān)視服務(wù)器的物理狀態(tài)數(shù)據(jù),如溫度、電壓、風(fēng)扇工作狀態(tài)、電源供應(yīng)以及機(jī)箱入侵等數(shù)據(jù)。帶外管理最大的優(yōu)勢(shì)在于它是獨(dú)立于計(jì)算芯片CPU、主板IO控制系統(tǒng)BIOS和操作系統(tǒng),可以實(shí)現(xiàn)在開/關(guān)機(jī)狀態(tài)下,接通電源就即可以對(duì)硬件設(shè)備的監(jiān)控管理。
(3)帶內(nèi)管理與帶外管理對(duì)比
啟動(dòng)帶外管理“遠(yuǎn)程辦公”模式
安超DCM數(shù)據(jù)中心管理平臺(tái)運(yùn)用帶外管理技術(shù)搭建的跨廠商、跨硬件平臺(tái)的統(tǒng)一帶外管理平臺(tái),可以實(shí)現(xiàn)自動(dòng)化巡檢、遠(yuǎn)程資產(chǎn)管理與資產(chǎn)盤點(diǎn)、統(tǒng)一vKVM遠(yuǎn)程管理,實(shí)現(xiàn)運(yùn)維人員不在數(shù)據(jù)中心現(xiàn)場(chǎng),也能對(duì)數(shù)據(jù)中心設(shè)備情況盡在掌握。
總結(jié)
相較于傳統(tǒng)的帶內(nèi)管理,帶外管理技術(shù)是一種更安全、更智能、更高效的數(shù)據(jù)中心硬件設(shè)備統(tǒng)一運(yùn)維管理方式,安超DCM能夠助力數(shù)據(jù)中心提升智能化運(yùn)維程度、加強(qiáng)運(yùn)維的數(shù)據(jù)支撐,從而全面降低運(yùn)維難度、減少人工依賴、實(shí)現(xiàn)多數(shù)據(jù)中心遠(yuǎn)程聯(lián)動(dòng)管理,可見,帶外管理技術(shù)的應(yīng)用成功讓數(shù)據(jù)中心運(yùn)維人員“遠(yuǎn)程辦公”成為現(xiàn)實(shí),疫情還未完全散去,我們還需未雨綢繆。