數(shù)據(jù)中心運維管理方案(數(shù)據(jù)中心運維管理方案設(shè)計)
第一章 某數(shù)據(jù)中心基礎(chǔ)運維概述
某數(shù)據(jù)中心的基礎(chǔ)運維工作主要包含包括四個部分:基礎(chǔ)環(huán)境、網(wǎng)絡(luò)、服務(wù)器存儲和基礎(chǔ)軟件。
其中第一部分機房基礎(chǔ)環(huán)境部分,包含機柜位置、空調(diào)、消防、安防、弱電、UPS等最基礎(chǔ)的機房環(huán)境設(shè)施。需要對這些基礎(chǔ)環(huán)境部分進行運維維護,確保整個機房環(huán)境正常穩(wěn)定。
第二部分為網(wǎng)絡(luò)環(huán)境,包括當(dāng)前數(shù)據(jù)中心所有的交換機、路由器等設(shè)備,以及由這些設(shè)備組成的所有網(wǎng)絡(luò),需要監(jiān)控網(wǎng)絡(luò)運行情況并提出網(wǎng)絡(luò)風(fēng)險評估,定期對網(wǎng)絡(luò)進行優(yōu)化配置,提高網(wǎng)絡(luò)運行效率,保證整個網(wǎng)絡(luò)環(huán)境的安全。
第三部分服務(wù)器和存儲部分,包含整個數(shù)據(jù)中心的小型機、服務(wù)器、存儲設(shè)備、SAN交換機等設(shè)備。這些設(shè)備支撐著整個業(yè)務(wù)系統(tǒng),是非常重要的基礎(chǔ)硬件環(huán)境。需要監(jiān)控這些設(shè)備的運行情況,及時處理出現(xiàn)的問題和變更,并基于整個環(huán)境提供優(yōu)化。
第四部分為基礎(chǔ)軟件部分,包括各種操作系統(tǒng)、數(shù)據(jù)庫、中間件、備份軟件等等。要求這些軟件可以正常工作,并優(yōu)化配置,為平臺和工作站正常服務(wù),當(dāng)這些軟件出現(xiàn)問題時,能發(fā)現(xiàn)并提出解決方案;可以協(xié)助應(yīng)用人員解決故障或進行對應(yīng)的變更、升級等操作。
本方案將基于這幾個方面進行設(shè)計,確保數(shù)據(jù)中心正常、高效運行。
第二章 數(shù)據(jù)中心運維分類
某數(shù)據(jù)中心運維團隊將根據(jù)當(dāng)前數(shù)據(jù)中心的實際情況和對應(yīng)的管理制度,通過主動性、預(yù)防性維護,執(zhí)行日常維護作業(yè)計劃,對告警、性能、運行狀態(tài)進行檢查分析,及時進行數(shù)據(jù)備份,并定期對備份數(shù)據(jù)進行恢復(fù)性測試驗證,對系統(tǒng)運行質(zhì)量進行分析,并進行維護記錄。對監(jiān)控或維護中發(fā)現(xiàn)的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。我們將基于以下幾個方面對運維工作進行描述
2.1 基礎(chǔ)環(huán)境運維管理
針對基本的機房環(huán)境設(shè)施,我們的工作內(nèi)容包含以下這些內(nèi)容:
1) 機房機柜擺放規(guī)劃和機柜管理;
2) 服務(wù)器和網(wǎng)絡(luò)設(shè)備擺放規(guī)劃和日常管理;
3) 設(shè)備出入機房審批登記管理;
4) 內(nèi)部人員出入機房審批登記管理;
5) 外部來賓機房參觀審批登記管理;
6) 機房電力系統(tǒng)監(jiān)控、問題及時上報;
7) 消防監(jiān)控系統(tǒng)監(jiān)控、接收報警短信和聯(lián)系第三方;
8) 空調(diào)報警系統(tǒng)監(jiān)控、接收報警短信和聯(lián)系第三方;確認空調(diào)運行狀態(tài)良好。清潔機房的空調(diào)防塵網(wǎng)。
9) 溫濕度報警監(jiān)控、接受報警短信和聯(lián)系專業(yè)第三方;
10) 漏水報警系統(tǒng)監(jiān)控、接受報警短信和聯(lián)系專業(yè)第三方;
11) IC卡門禁系統(tǒng)日常運維;
12) 視頻監(jiān)控系統(tǒng)日常運維;
13) UPS報警系統(tǒng)監(jiān)控和聯(lián)系第三方;
14) 機房資產(chǎn)管理系統(tǒng)(CMDB)。
15) 機房環(huán)境。清理機房的雜物,將機房物品定置。清潔機房門窗、地面。定期清潔電池室的地面;檢查機房所有與外界的空洞是否已嚴(yán)密封堵,嚴(yán)密防鼠;檢查機房玻璃、地板、天花板、通氣口,墻體表面是否正常,外觀是否完好,有否出現(xiàn)老化現(xiàn)象。檢查機房是否有漏水現(xiàn)象。檢查機房墻壁是否有滲水現(xiàn)象。填寫巡檢記錄,有問題及時報告。
16) 巡視電池間;檢查電池工作狀態(tài)。
17) 確認機房照明良好,出現(xiàn)問題及時報告。
18) 視頻網(wǎng)絡(luò)播放系統(tǒng)。定期檢查可用性,有問題及時與專業(yè)第三方公司聯(lián)系解決。
19) 填寫巡檢記錄。
2.2 網(wǎng)絡(luò)運維管理
針對數(shù)據(jù)中心的網(wǎng)絡(luò)部分,運維內(nèi)容主要包含以下內(nèi)容:
1) 測試網(wǎng)絡(luò)接入速度,監(jiān)控網(wǎng)絡(luò)訪問可用性和訪問質(zhì)量,出現(xiàn)問題第一時間直接聯(lián)系接入商解決。
2) 網(wǎng)絡(luò)接入商變化時,配合網(wǎng)絡(luò)接入商對網(wǎng)絡(luò)變更方案的可行性審查、問題審查。配合網(wǎng)絡(luò)接入商更替施工。
3) 局域網(wǎng)。本地局域網(wǎng)日常管理和維護;VLAN 劃分;網(wǎng)絡(luò)性能優(yōu)化;故障排除;網(wǎng)絡(luò)節(jié)點周期性檢查,發(fā)現(xiàn)潛在問題,并解決。
4) 無線局域網(wǎng)。負責(zé)無線局域網(wǎng)的日常管理和維護;客戶端不能正常接入網(wǎng)絡(luò)的故障排除;網(wǎng)絡(luò)性能優(yōu)化;故障排除;網(wǎng)絡(luò)節(jié)點周期性檢查,發(fā)現(xiàn)潛在問題并解決。
5) 遠程接入。制定VPN使用策略,實施VPN用戶日常遠程接入服務(wù)器的管理,以及性能優(yōu)化和故障排除等。
6) 網(wǎng)絡(luò)病毒查殺和網(wǎng)絡(luò)安全保護。
7) 根據(jù)實際項目或安排而產(chǎn)生的其他工作。
2.3 服務(wù)器和存儲運維管理
2.3.1 服務(wù)器運行情況及性能監(jiān)測
數(shù)據(jù)中心運維團隊將通過綜合監(jiān)控系統(tǒng)實施7*24小時平臺設(shè)備監(jiān)控,發(fā)現(xiàn)告警,并進行處理,解決問題。對系統(tǒng)運行進行實時檢查。對監(jiān)控或維護中發(fā)現(xiàn)的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。并且還提供針對各服務(wù)器物理資源的使用情況和操作系統(tǒng)的運行情況、進行實時監(jiān)控,提供服務(wù)器安全監(jiān)測報告。
主機性能監(jiān)控的檢查列表包括:
ü CPU利用率
ü 內(nèi)存使用情況
ü 交換區(qū)使用情況
ü 磁盤I/O情況
ü 關(guān)鍵文件系統(tǒng)的狀態(tài)
ü 重要進程的運行情況(例程數(shù)量、消耗CPU、占用內(nèi)存)
ü 操作系統(tǒng)的各類日志文件
ü 網(wǎng)絡(luò)、端口信息
ü ……
運維團隊需根據(jù)檢查列表進行日常檢查,并不斷地改進日常檢查列表,以滿足對系統(tǒng)監(jiān)控的需要。
2.3.2 服務(wù)器軟硬件兼容性檢查
數(shù)據(jù)中心運維團隊在維護系統(tǒng)穩(wěn)定運行的同時,需主動收集系統(tǒng)關(guān)鍵補丁、軟件補丁、硬件微碼等信息,在通過數(shù)據(jù)中心專家評審的前提下,對相關(guān)設(shè)備進行升級服務(wù),并在升級完成后配合應(yīng)用方對系統(tǒng)進行測試。升級前后需要和應(yīng)用方及時做好溝通確認工作,確保不會產(chǎn)生兼容性導(dǎo)致的故障。
2.3.3 磁盤陣列設(shè)備管理
運維團隊需要對磁盤陣列設(shè)備及其相關(guān)的部件(如硬盤、控制器等)進行編號,并記錄在案,對軟件設(shè)置中的參數(shù)也要進行詳細的記錄,并在每次變更后及時更新相關(guān)的信息。
除此之外,運維團隊定期(暫定每半年)對于每個服務(wù)器的系統(tǒng)容量監(jiān)測的審核,并制定相應(yīng)的容量規(guī)劃,主要監(jiān)測文件系統(tǒng)的空間、數(shù)據(jù)庫的空間資源利用情況,分析資源利用趨勢,并提供資源情況報表。
文件系統(tǒng)空間管理
ü 定期檢查文件系統(tǒng)的空間使用情況,根據(jù)業(yè)務(wù)發(fā)展需求和新業(yè)務(wù)的增加,制定合理的空間分配方案,新增、修改或刪除空間。
ü 對文件系統(tǒng)空間的使用進行監(jiān)控,發(fā)現(xiàn)空間使用不合理或需要清理的協(xié)調(diào)解決。
數(shù)據(jù)庫空間管理
ü 應(yīng)實時監(jiān)測數(shù)據(jù)存儲空間的使用情況,根據(jù)業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)以及增長速度,制定合適的數(shù)據(jù)存儲和結(jié)構(gòu)優(yōu)化策略,動態(tài)增加新的空間以存放業(yè)務(wù)數(shù)據(jù);定期檢查數(shù)據(jù)存儲空間的使用情況,根據(jù)實際情況規(guī)劃增加新的空間,填寫數(shù)據(jù)庫空間新增/修改/刪除申請表,經(jīng)審核后實施,并更新數(shù)據(jù)庫配置狀況記錄表。
2.3.4 機柜、電源、網(wǎng)線布局管理
完整WORD版本下載方式如下:
- 點贊并評論本文
- 私信小編發(fā)送: 67 ,記得一定要先完成第一步哦 不然可能無法獲取