HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

當(dāng)“人工智能步入落地之年” AI 不再是概念，而是全面進(jìn)入到企業(yè)的戰(zhàn)略規(guī)劃之中。算力作為人工智能應(yīng)用的平臺(tái)和基礎(chǔ)，它的發(fā)展推動(dòng)了整個(gè)人工智能系統(tǒng)的發(fā)展和快速演進(jìn)，成為人工智能的最核心要素。

隨著科技的不斷發(fā)展，獲取算力的方式和途徑越來越豐富，就目前而言，公有云和數(shù)據(jù)中心（私有云）已經(jīng)成為兩大主流的算力獲取方式。不過，在實(shí)際的部署和應(yīng)用中，它們對(duì)于中小型AI開發(fā)團(tuán)隊(duì)來說都存在著很多問題。比如，中小型 AI 開發(fā)團(tuán)隊(duì)的 AI 模型訓(xùn)練往往是階段性的，而階段性訪問公有云需要按次收取算力費(fèi)用，如此累積算下來將是一筆不菲的投入，相比之下，一次性購買一臺(tái) GPU 工作站會(huì)更加劃算。而建立私有的數(shù)據(jù)中心，不僅需要批量購置 GPU 服務(wù)器，還需要搭建標(biāo)準(zhǔn)機(jī)房、高帶寬網(wǎng)絡(luò)部署，與此同時(shí)更需要增加專業(yè)IT維護(hù)人員的工作負(fù)荷，這對(duì)于中小型AI開發(fā)團(tuán)隊(duì)來說相當(dāng)奢侈。

從中小型AI開發(fā)團(tuán)隊(duì)的使用場景和使用需求中不難發(fā)現(xiàn)，降本增效是他們衡量一款解決方案是否合適的重要因素之一。這意味著算力設(shè)備需要在保障團(tuán)隊(duì)算力需求，可以共享使用的同時(shí)，還要做到簡單部署易操作，省時(shí)省力省空間。也因此，數(shù)據(jù)科學(xué)工作站的出現(xiàn)，可以很好地滿足這些切實(shí)需求。

數(shù)據(jù)科學(xué)工作站是 PC 形態(tài)的桌面超級(jí)計(jì)算機(jī)，相較于 PC ，它支持雙路 Intel? 至強(qiáng)?鉑金/金牌等系列的處理器和主板芯片海量內(nèi)存、大容量 SATA 硬盤以及多塊 NVIDIA ?高端 RTX? 專業(yè)級(jí)顯卡等，可以滿足算法訓(xùn)練等 AI 工作流程中所需要的強(qiáng)大算力需求以及圖形應(yīng)用中的海量浮點(diǎn)運(yùn)算和 3D 渲染工作等對(duì)硬件的苛刻要求。

數(shù)據(jù)科學(xué)工作站與公有云或數(shù)據(jù)中心相比，不僅性價(jià)比高，更容易部署，而且噪音低，可以讓中小型AI開發(fā)團(tuán)隊(duì)直接在辦公區(qū)內(nèi)進(jìn)行協(xié)同開發(fā)。

惠普最近升級(jí)的 HP Z8 G4 數(shù)據(jù)科學(xué)工作站以其強(qiáng)大的性能表現(xiàn)，穩(wěn)定可靠的安全性，以及全方位的系統(tǒng)和軟件支持，在專業(yè)領(lǐng)域工作環(huán)境下，為使用者提供了絕佳的高性能計(jì)算解決方案。

同時(shí)，惠普最新還推出了一款基于 Docker Kubernetes 的人工智能容器云平臺(tái)HP AI開發(fā)平臺(tái)。該平臺(tái)能夠?qū)崿F(xiàn)異構(gòu)資源的高效管理、調(diào)度和監(jiān)控，提供了從模型開發(fā)、訓(xùn)練到部署的完整流程和工具，廣泛適用于教育、科研、金融、醫(yī)療、能源各個(gè)行業(yè)，能極大降低人工智能進(jìn)入門檻，提高人工智能創(chuàng)新和研發(fā)的效率。

為了讓中小型AI開發(fā)團(tuán)隊(duì)更切實(shí)更全面地認(rèn)識(shí) HP Z8 G4 數(shù)據(jù)科學(xué)工作站以及 HP AI 開發(fā)平臺(tái)在團(tuán)隊(duì)協(xié)作開發(fā)中的價(jià)值，智東西公開課AI教研團(tuán)隊(duì)聯(lián)合兩位 Kaggle Grandmaster 模擬現(xiàn)實(shí)開發(fā)，對(duì) HP AI 開發(fā)平臺(tái)的功能應(yīng)用，及其在 HP Z8 G4 數(shù)據(jù)科學(xué)工作站上的使用體驗(yàn)兩個(gè)方面進(jìn)行了深入評(píng)測和項(xiàng)目實(shí)驗(yàn)。

智東西公開課AI教研團(tuán)隊(duì)主要承擔(dān)在 HP Z8 G4 數(shù)據(jù)科學(xué)工作站中安裝 HP AI 開發(fā)平臺(tái)，并且作為管理員進(jìn)行資源管理。兩位 Kaggle Grandmaster 將基于我們分配的資源，協(xié)同完成基于數(shù)據(jù)集 CASIA-SURF 的人臉活體檢測，以及基于數(shù)據(jù)集 STS-B 的自然語言文本分類這兩項(xiàng)實(shí)驗(yàn)。

兩位 Kaggle GrandMaster 分別是關(guān)注自然語言處理領(lǐng)域的算法工程師吳遠(yuǎn)皓和從事醫(yī)療AI算法研發(fā)工作的算法工程師沈濤。吳遠(yuǎn)皓已參加超過20場Kaggle競賽，獲得8枚金牌，并于2019年成為 Kaggle Competitions Grandmaster ，全球最高排名第36位。沈濤在機(jī)器學(xué)習(xí)競賽平臺(tái) Kaggle 上共得到11塊金牌，獲得了 Kaggle Grandmaster 稱號(hào)，全球最高排名第8位。

在進(jìn)入正文介紹 HP AI 開發(fā)平臺(tái)的功能及實(shí)驗(yàn)之前，我們先來了解一下本次使用的 HP Z8 G4 數(shù)據(jù)科學(xué)工作站的核心參數(shù)，如下：

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表0.0.1

再給大家看看3塊 NVIDIA A5000 顯卡安裝好之后的實(shí)際展示。下圖中的“三條金色模塊”即為 NVIDIA A5000 顯卡。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表0.0.2

下圖是 HP Z8 G4 數(shù)據(jù)科學(xué)工作站實(shí)際工作的展示：

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表0.0.3

1、HP AI 開發(fā)平臺(tái)功能全解

本章節(jié)將為大家展示 HP AI 開發(fā)平臺(tái)的安裝過程和架構(gòu)組成，并重點(diǎn)介紹其為開發(fā)者所提供的模型訓(xùn)練、數(shù)據(jù)存儲(chǔ)、任務(wù)鏡像，以及向管理者所提供的用戶權(quán)限、監(jiān)控中心、系統(tǒng)設(shè)置等特色功能。

下面進(jìn)入 HP AI 開發(fā)平臺(tái)的安裝。HP AI 開發(fā)平臺(tái)的安裝包是適用于 Unix 系統(tǒng)和類 Unix 系統(tǒng)的.run 格式文件，整個(gè)安裝過程分三步，十分簡單：

第一步，在 Ubuntu 系統(tǒng)的終端中，輸入：
“sudo bash AI_HP -Evaluation-4.5.1-HP-63045-offline.run”即可進(jìn)行安裝。

第二步，成功安裝完成后，會(huì)顯示：
“Please visit htp://192.168.88.80:5678 to continue installation.”。此時(shí)瀏覽器輸入網(wǎng)址后會(huì)看到平臺(tái)的環(huán)境正在初始化。

第三步，平臺(tái)環(huán)境初始化完成后，會(huì)自動(dòng)跳轉(zhuǎn)到 HP AI 開發(fā)平臺(tái)的登錄界面，此時(shí)輸入賬號(hào)密碼即可完成登錄。下圖為 HP AI 開發(fā)平臺(tái)的首頁展示。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.0.1

1、平臺(tái)架構(gòu)

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.1.1

1.1、基礎(chǔ)設(shè)施層

基礎(chǔ)設(shè)施層以X86的服務(wù)器、專業(yè)工作站為載體，可通過 GPU、CPU 等提供高性能加速計(jì)算，支持 TCP/IP，InfiniBand 高速網(wǎng)絡(luò)互聯(lián)，以及 NFS 和 GlusterFS 兩種類型的存儲(chǔ)格式。

1.2、資源調(diào)度層

采用容器化技術(shù)管理底層資源，并利用 Kubernetes（K8s）技術(shù)進(jìn)行容器編排調(diào)度。

1.3、應(yīng)用服務(wù)層

應(yīng)用服務(wù)層支持主流的 TensorFlow、Caffe、PyTorch 和 MxNet 等主流的機(jī)器學(xué)習(xí)框架，以及完整的機(jī)器學(xué)習(xí)所需的處理流程，實(shí)現(xiàn)資源操作自動(dòng)化。

1.4、業(yè)務(wù)領(lǐng)域?qū)?/span>

通過支持自然語言處理、圖像識(shí)別和語音識(shí)別等任務(wù)，可以滿足金融、教育、醫(yī)療、制造等行業(yè)場景的 AI 開發(fā)需求。

2、特色功能

2.1、模型訓(xùn)練

2.1.1、任務(wù)列表

任務(wù)管理界面，有“任務(wù)訓(xùn)練”、“交互式開發(fā)”、“可視化”、“模型部署”等四個(gè)功能頁。管理員用戶可以查看和管理所有用戶的訓(xùn)練任務(wù)，包括任務(wù)訓(xùn)練任務(wù)、交互式開發(fā)任務(wù)、可視化任務(wù)、模型部署任務(wù)。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.1

查看任務(wù)

可以看到所有用戶的所有任務(wù)的簡要配置信息，如任務(wù)名稱、所屬用戶、任務(wù)的執(zhí)行器、所屬分區(qū)、資源配額、創(chuàng)建時(shí)間等。點(diǎn)擊“任務(wù)訓(xùn)練”、“交互式開發(fā)”、“可視化”、“模型部署”來展示不同類型的任務(wù)。

比如在交互式任務(wù) “interactive14871” 中，可以分別看到任務(wù)節(jié)點(diǎn)、用戶名、執(zhí)行器、分區(qū)名稱、資源配置、任務(wù)優(yōu)先級(jí)、運(yùn)行狀態(tài)、創(chuàng)建時(shí)間、空閑時(shí)間等。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.2

點(diǎn)擊“詳情”可以進(jìn)一步查看任務(wù)的基本信息、資源配置、應(yīng)用信息和狀態(tài)等。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.3

刪除任務(wù)

點(diǎn)擊“刪除”按鈕即可刪除正在運(yùn)行中的任務(wù)。

需要注意的是在“任務(wù)訓(xùn)練”中的任務(wù)，點(diǎn)擊“刪除”按鈕，只會(huì)刪除正在運(yùn)行中的訓(xùn)練任務(wù)，記錄無法被刪除，記錄不會(huì)占用 CPU、GPU、內(nèi)存等資源，其他類型任務(wù)刪除后不保留記錄。

查詢用戶任務(wù)

在界面右側(cè)輸入框中輸入要查找的用戶名，回車進(jìn)行查找。

2.1.2、任務(wù)統(tǒng)計(jì)

管理員可對(duì) HP AI 開發(fā)平臺(tái)中各分區(qū)任務(wù)進(jìn)行統(tǒng)計(jì)。查看分區(qū)中已計(jì)劃、已完成、運(yùn)行中、暫停中的任務(wù)數(shù)量以及任務(wù)的資源占用信息?！叭蝿?wù)統(tǒng)計(jì)”可以幫助管理員了解各分區(qū)中用戶在一段時(shí)間內(nèi)使用任務(wù)訓(xùn)練的使用情況。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表1.2.4

根據(jù)日期統(tǒng)計(jì)任務(wù)

管理員可選擇指定日期，統(tǒng)計(jì)指定日期時(shí)間到當(dāng)前時(shí)間的任務(wù)數(shù)量及任務(wù)資源占用情況。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.5

2.1.3、任務(wù)隊(duì)列

點(diǎn)擊左側(cè)菜單“任務(wù)隊(duì)列”，進(jìn)入任務(wù)隊(duì)列界面，分別顯示優(yōu)先級(jí)為“高”、“普通”、“低”三種優(yōu)先級(jí)任務(wù)。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表1.2.6

2.2、數(shù)據(jù)存儲(chǔ)

HP AI 開發(fā)平臺(tái)支持基于 NFS 的分布式存儲(chǔ)方式，滿足用戶對(duì)數(shù)據(jù)的安全和性能要求。豐富的數(shù)據(jù)管理、分享功能極大方便了用戶的使用。

2.2.1、數(shù)據(jù)卷

管理員可以創(chuàng)建 NFS 卷，對(duì)卷進(jìn)行管理操作，查看卷的使用情況。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表1.2.7

查看“NFS”卷列表

可以看到 NFS 數(shù)據(jù)卷列表及每個(gè)數(shù)據(jù)卷的服務(wù)器地址、共享目錄、掛載權(quán)限、狀態(tài)及描述狀態(tài)。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.8

創(chuàng)建 NFS 卷

點(diǎn)擊“創(chuàng)建 NFS 卷”按鈕，進(jìn)入NFS卷創(chuàng)建界面。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.9

NFS 名詞參數(shù)解釋

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.10

查看卷使用情況

管理員用戶在數(shù)據(jù)卷列表頁面點(diǎn)擊卷名稱后，該數(shù)據(jù)卷的總使用情況和各用戶使用情況均會(huì)顯示在此頁面。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.11

2.2.2、公共數(shù)據(jù)

公共數(shù)據(jù)即擁有 HP AI 開發(fā)平臺(tái)用戶都可以訪問的數(shù)據(jù)，管理員可以上傳公共數(shù)據(jù)，并對(duì)公共數(shù)據(jù)進(jìn)行管理，普通用戶只有復(fù)制到用戶私有數(shù)據(jù)和下載權(quán)限。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.12

創(chuàng)建目錄

用戶可以在“公共數(shù)據(jù)”頁面點(diǎn)擊“創(chuàng)建目錄”來創(chuàng)建自己的目錄。名稱不能包含以下字符”, ‘|’, ‘*’, ‘?’, ‘,’，’/’，’ ‘, 長度在1~50個(gè)字符，創(chuàng)建成功會(huì)有相應(yīng)提示。否則創(chuàng)建失敗。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.13

上傳數(shù)據(jù)

將本地文件上傳到“公共數(shù)據(jù)”中。適合小文件的上傳。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.14

刷新

若對(duì)文件進(jìn)行了增刪修改操作，點(diǎn)擊“刷新”按鈕更新文件狀態(tài)及屬性。

文件列表：文件及文件夾管理

針對(duì)文件列表里面的每一個(gè)文件及文件夾，都有相應(yīng)的管理功能，如重命名、下載、復(fù)制、查看文件大小、刪除等，針對(duì)文件還有在線查看功能，方便管理員進(jìn)行管理操作。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.15

2.3、任務(wù)鏡像

2.3.1、公共鏡像

由管理員上傳的鏡像為公共鏡像，用戶都可以看到并且可以在創(chuàng)建任務(wù)時(shí)使用。管理員在“下載鏡像”中下載的鏡像和上傳的鏡像均在此界面管理。此界面中管理員可對(duì)公共鏡像進(jìn)行設(shè)置刪除、二次更新制作鏡像及查看鏡像詳細(xì)信息等操作。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.16

上傳鏡像

管理員用戶在鏡像倉庫頁面，也可以上傳公共鏡像。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

2.3.2、鏡像倉庫

管理員在鏡像倉庫頁面，可以查看各用戶的私有鏡像，或上傳公共鏡像

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

查看鏡像倉庫

上傳鏡像

管理員用戶在鏡像倉庫頁面，也可以上傳公共鏡像。

查看鏡像倉庫

在鏡像倉庫列表中，點(diǎn)擊任意用戶名，即可進(jìn)入用戶的鏡像倉庫中查看用戶的私有鏡像。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.19

2.3.3、下載鏡像

點(diǎn)擊“下載鏡像”，進(jìn)入以下界面，該界面有 “ Docker Hub ”、“ HP 機(jī)器學(xué)習(xí)鏡像”和 “NVIDIA鏡像” 三個(gè)功能頁面。用戶可根據(jù)自己需要的鏡像環(huán)境去 Docker 官方鏡像倉庫Docker Hub、HP 機(jī)器學(xué)習(xí)鏡像倉庫和 NVIDIA 鏡像倉庫下載指定鏡像。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.20

HP 機(jī)器學(xué)習(xí)鏡像

此功能頁預(yù)留了官方制作好的鏡像，包括 Caffe、Cuda、OpenVINO、PyTorch、TensorFlow-gpu 等11個(gè)鏡像系統(tǒng)。每個(gè)鏡像版本完整，并和官方機(jī)器學(xué)習(xí)框架 Release 保持一致，用戶可直接使用。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.21

NVIDIA 鏡像

允許用戶查看 NGC 鏡像列表，下載使用 NGC 上 NVIDIA 提供的鏡像。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.22

2.4、用戶權(quán)限

2.4.1、用戶

點(diǎn)擊左側(cè)菜單“用戶權(quán)限-用戶”，進(jìn)入用戶管理界面。管理員用戶可以對(duì)用戶創(chuàng)建、刪除、編輯以及配置分區(qū)、存儲(chǔ)卷和資源配額等，對(duì)用戶的 CPU 、 GPU 、 Mem 和存儲(chǔ)配額進(jìn)行設(shè)定，限定用戶能使用的資源數(shù)量。用戶的數(shù)據(jù)存儲(chǔ)空間相互隔離，每個(gè)用戶只能訪問各自空間中的數(shù)據(jù)，無法越界訪問未授權(quán)的數(shù)據(jù)。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.23

查看用戶

在用戶管理界面，可以查看每個(gè)用戶的手機(jī)號(hào)碼、郵箱地址、創(chuàng)建時(shí)間、創(chuàng)建人、修改時(shí)間、修改人、綁定的分區(qū)以及用戶組名。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表1.2.24

點(diǎn)擊“操作”按鈕 -> 查看數(shù)據(jù)卷與配額，可以查看用戶的資源配額限定情況。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.25

點(diǎn)擊“查看關(guān)聯(lián)角色”。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.26

點(diǎn)擊“修改用戶信息”，可對(duì)已有用戶的手機(jī)號(hào)、郵箱、用戶組、分區(qū)和配額進(jìn)行修

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.27

點(diǎn)擊“重置密碼”，可重置用戶密碼。管理員可以通過兩種方式重置用戶密碼。一種是系統(tǒng)自動(dòng)生成密碼。如使用這種方式重置密碼，管理員只需點(diǎn)擊“重置密碼”按鈕即可在界面上看到新密碼；另一種重置密碼方式為管理員手動(dòng)修改密碼，只需輸入兩遍新密碼，并點(diǎn)擊“提交”按鈕，即可修改此用戶的密碼。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

表 1.2.28

點(diǎn)擊“刪除”，可刪除用戶。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

2.4.2、用戶組

修改默認(rèn)配額

管理員用戶可以點(diǎn)擊用戶列表頁面上的“修改默認(rèn)配額”按鈕，來修改創(chuàng)建用戶時(shí)默認(rèn)的可使用資源配額。如 CPU 、 GPU 、內(nèi)存、存儲(chǔ)和任務(wù)數(shù)量的默認(rèn)配額。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.30

創(chuàng)建用戶

點(diǎn)擊“創(chuàng)建用戶”按鈕，進(jìn)入“創(chuàng)建用戶”界面后，需要填寫用戶的基本信息和配置用戶組、數(shù)據(jù)卷、分區(qū)等參數(shù)。CPU 、GPU 、內(nèi)存、存儲(chǔ)等參數(shù)默認(rèn)使用默認(rèn)配額中的配置。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.38

2.4.2、用戶組

管理員用戶在用戶組頁面，可以查看、創(chuàng)建和刪除用戶組。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.32

查看用戶組

點(diǎn)擊“查看關(guān)聯(lián)角色”，顯示該用戶組的所有角色。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.33

點(diǎn)擊“查看該組用戶”，顯示該用戶組的所有用戶。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.34

創(chuàng)建用戶組

管理員在用戶組列表頁面，點(diǎn)擊“創(chuàng)建用戶組”按鈕進(jìn)入創(chuàng)建用戶組界面，輸入用戶組名（用戶組名長度1-20個(gè)字符，不能包含字符”, ‘|’, ‘*’, ‘?’, ‘,’，’/’。），選擇不同模塊的權(quán)限，最后點(diǎn)擊“提交”按鈕創(chuàng)建新的用戶組。點(diǎn)擊“取消”按鈕取消創(chuàng)建用戶組，回到用戶組列表頁面。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.35

各個(gè)功能模塊不同角色的權(quán)限參照下表：

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.36

2.5、監(jiān)控中心

2.5.1、儀表盤

儀表盤提供了多維度和多層次的監(jiān)控信息，使系統(tǒng)使用透明、可追蹤。管理員用戶在左側(cè)菜單欄中選擇儀表盤，即可查看節(jié)點(diǎn)和分區(qū)的資源使用情況。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

節(jié)點(diǎn)查看

點(diǎn)擊節(jié)點(diǎn)頁面的“查看”，可以針對(duì)某個(gè)節(jié)點(diǎn)監(jiān)控信息進(jìn)行查看。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.38

分區(qū)查看

點(diǎn)擊分區(qū)頁面的“查看”，可以針對(duì)某個(gè)分區(qū)監(jiān)控信息進(jìn)行查看。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

1、資源創(chuàng)建與分配

2.5.2、監(jiān)控報(bào)表

在當(dāng)前界面可以選擇 HP AI 開發(fā)平臺(tái)的節(jié)點(diǎn)、分區(qū)等選項(xiàng)來監(jiān)控資源利用情況呈現(xiàn)可視化圖表。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.40

2.5.3、實(shí)時(shí)信息

在當(dāng)前界面可以選擇 HP AI 開發(fā)平臺(tái) GPU 用途分布、GPU 使用概況、GPU 使用分布等可視化圖表。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.41

管理員可以查看 GPU 的用途分布統(tǒng)計(jì)（任務(wù)訓(xùn)練、交互式使用、可視化、空閑使用）。

管理員可以查看 GPU 的分區(qū)使用統(tǒng)計(jì)（總共使用，每個(gè)分區(qū)使用）。

管理員可以查看 GPU 的用戶使用統(tǒng)計(jì)（總共使用，每個(gè)用戶使用）。

管理員可以查看節(jié)點(diǎn) GPU 使用概況（總數(shù)、空閑、已占用），以及每一塊 GPU 卡的使用率和顯存使用率。

2.5.4、歷史統(tǒng)計(jì)

在當(dāng)前界面可以查看 HP AI 開發(fā)平臺(tái)用戶資源使用統(tǒng)計(jì)圖表。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.42

2.6、系統(tǒng)設(shè)置

GPU 配置

在當(dāng)前界面可以選擇 HP AI 開發(fā)平臺(tái) GPU 類型、切片數(shù)量。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.43

輸入切片數(shù)量，點(diǎn)擊“確認(rèn)”后，即可為 GPU 切片。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 1.2.44

2、實(shí)驗(yàn):人臉活體檢測和自然語言文本分類

在本章節(jié)，智東西公開課AI教研團(tuán)隊(duì)將作為管理員，分配不同的賬戶資源給到兩位 Kaggle Grandmaster 進(jìn)行模型開發(fā)實(shí)驗(yàn)，并在平臺(tái)后端監(jiān)測相應(yīng)的資源使用情況和反饋。

1、資源創(chuàng)建與分配

1.1、創(chuàng)建分區(qū) kaggle

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.1.1

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.1.2

1.2、創(chuàng)建用戶組 viewers

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.1.3

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.1.4

1.3、創(chuàng)建用戶 master1、master2

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.1.5

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.1.6

2、實(shí)驗(yàn)一：基于數(shù)據(jù)集 CASIA-SURF 的人臉活體檢測

2.1、實(shí)驗(yàn)說明

該部分實(shí)驗(yàn)由 Kaggle Grandmaster 沈濤完成。

人臉活體檢測是人臉識(shí)別過程中的一個(gè)重要環(huán)節(jié)。它對(duì)人臉識(shí)別過程存在照片、視頻、面具、頭套、頭模等欺騙手段進(jìn)行檢測，對(duì)于身份驗(yàn)證的安全性尤為重要。從技術(shù)發(fā)展上，人臉活體檢測可以簡單地分為兩大類：傳統(tǒng)的人工特征模式識(shí)別方法和近年來興起的深度學(xué)習(xí)方法。目前，深度學(xué)習(xí)方法在識(shí)別準(zhǔn)確性上已有較大優(yōu)勢。

很多人臉識(shí)別系統(tǒng)利用可見光人臉圖像進(jìn)行活體檢測，識(shí)別性能易受到光照條件的影響。

同時(shí)，基于可見光光譜的識(shí)別方式也很難應(yīng)對(duì)常見的偽造攻擊。使用多模態(tài)數(shù)據(jù)進(jìn)行活體檢測建模，能有效緩解這些問題。融合多種成像設(shè)備的圖像信息，比如可見光，近紅外和深度圖像等，既能提升模型的識(shí)別性能，也能減少光照條件對(duì)性能的干擾。

本次實(shí)驗(yàn)，我們使用 HP AI 開發(fā)平臺(tái)，搭建并訓(xùn)練深度學(xué)習(xí)模型，用于人臉活體檢測。數(shù)據(jù)集采用了 CASIA-SURF 集合。該數(shù)據(jù)集含有人臉可見光圖，近紅外和深度圖三種模態(tài)信息，包含了1000個(gè)個(gè)體樣本的21000段視頻。采集設(shè)備是英特爾的 RealSense 立體相機(jī)。

模型結(jié)構(gòu)方面，我們會(huì)實(shí)驗(yàn)多種不同架構(gòu)，包括 CNN 類型的架構(gòu) FaceBagNet 模型， MLP 類的架構(gòu)，（如 VisionPermutator，MLPMixer 等），還有近期非常熱門的Vision Transformer（ViT）模型。并且比對(duì)這些模型在該任務(wù)上的性能。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.2.1

2.2、實(shí)驗(yàn)流程

2.2.1、環(huán)境配置

（1）進(jìn)入實(shí)驗(yàn)平臺(tái)，新建交互任務(wù) Terminal，選擇合適的鏡像，需要包含實(shí)驗(yàn)所需的軟件庫（ PyTorch ，OpenCV 等）。實(shí)驗(yàn)平臺(tái)首頁，展示了目前的資源狀態(tài)：正在執(zhí)行的任務(wù)數(shù)量，可分配的資源等。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表2.2.2

（2）左側(cè)欄選擇“模型開發(fā)”-“交互式開發(fā)”，并且點(diǎn)擊紅色框指定的新建按鈕。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表2.2.3

（3）進(jìn)一步選擇 Terminal，設(shè)置密碼（用于后續(xù) ssh 登陸），選擇內(nèi)存大小，CPU，GPU數(shù)量。根據(jù)實(shí)驗(yàn)需要設(shè)置。我們選取內(nèi)存 32G ，16核 CPU，和一顆 A5000 型號(hào)的 GPU 用于本次實(shí)驗(yàn)。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表2.2.4

（4）最下方可以選擇本地實(shí)驗(yàn)使用的鏡像環(huán)境，該平臺(tái)提供了公用的基礎(chǔ)鏡像，我們也可以配置自己的私有鏡像環(huán)境。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表2.2.5

（5）創(chuàng)建成功后，會(huì)顯示正在運(yùn)行的應(yīng)用。此時(shí)可以用過命令“ssh -p 25875 root@192.168.88.80”遠(yuǎn)程連接進(jìn)行創(chuàng)建好的環(huán)境。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表2.2.6

2.2.2、實(shí)驗(yàn)運(yùn)行

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

如圖所示，模型已經(jīng)開始訓(xùn)練，單卡 A5000下，訓(xùn)練效率很高，一個(gè) epoch 只需要不到一分鐘的時(shí)間。同時(shí) GPU 的占用率一直業(yè)保持在80-90%。模型的 log 文件和最終的模型文件都會(huì)存儲(chǔ)在對(duì)應(yīng)的 Models 路徑下。在訓(xùn)練開始時(shí)，終端開始打印 log ，訓(xùn)練過程中 GPU 的占用率在80-90%。

2.3、實(shí)驗(yàn)結(jié)果

為了有效對(duì)比多個(gè)模型的性能，我們使用該平臺(tái)訓(xùn)練了多個(gè)不同結(jié)構(gòu)，不同參數(shù)的模型。我們?cè)隍?yàn)證集合上測試了模型性能，使用了 ACER（Average ClassificationError Rate ）指標(biāo)。指標(biāo)越低，說明模型性能越好。

下表展示了單一模態(tài)下，各個(gè)模型的性能比較。整體上看，使用深度圖數(shù)據(jù)的模型，會(huì)顯著優(yōu)于其他兩種單一模態(tài)模型。FaceBagNet ，ConvMixer 和 MLPMixer 都有比較好的性能。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

同時(shí)我們測試了三種 patch size 下，兩種多模態(tài)建模模型的性能， FaceBagNetFusion 的效果在各個(gè)參數(shù)下都顯著優(yōu)于ViT模型。相比于表表2.2.7中的數(shù)據(jù)，多模態(tài)建模的結(jié)果均優(yōu)于單一模態(tài)的建模結(jié)果。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表2.2.8

2.4、實(shí)驗(yàn)感受

Q1：你在本次實(shí)驗(yàn)中訓(xùn)練了多個(gè)不同結(jié)構(gòu)和不同參數(shù)的模型，管理員分配給你的2/3分區(qū)資源是否滿足了訓(xùn)練要求？

沈濤：我的實(shí)驗(yàn)主要是依賴 GPU 算力，對(duì) CPU 和內(nèi)存的需求相對(duì)較少。NVIDIA A5000 GPU 的單卡訓(xùn)練效率已經(jīng)足夠高，如果使用混合精度訓(xùn)練等技術(shù)，效率會(huì)進(jìn)一步提升。

Q2：你在本次實(shí)驗(yàn)中進(jìn)行了私有鏡像的上傳，是否順暢？鏡像使用中有沒有遇到兼容性或不穩(wěn)定等問題？

沈濤：我以公共鏡像為基礎(chǔ)制作了私有鏡像。具體來說，我先申請(qǐng)了基于基礎(chǔ)鏡像的命令行的交互任務(wù)，并在任務(wù)中安裝了我所需的工作環(huán)境，并將環(huán)境保存為新的私有鏡像，后續(xù)可以直接使用。整個(gè)使用過程比較順暢，沒有出現(xiàn)問題。

Q3：HP AI 開發(fā)平臺(tái)提供的是 Web 端 GUI 交互界面，基于你的使用感受，你認(rèn)為是否能夠降低普通開發(fā)者的使用門檻和難度？

沈濤：上述Q2中的私有鏡像保存操作就是在 GUI 交互界面完成的，這一點(diǎn)就比較方便，對(duì)于普通開發(fā)者，省去了 Docker 命令行操作，降低了使用門檻。同時(shí)，整個(gè)計(jì)算資源利用率的實(shí)時(shí)展示，任務(wù)的申請(qǐng)，都可以通過比較簡單地交互可以完成，整體上便捷一些。

Q4：對(duì)比公有云、數(shù)據(jù)中心和本地 PC ，你覺得通過工作站進(jìn)行模型訓(xùn)練的優(yōu)勢有哪些？

沈濤：相比于公有云，數(shù)據(jù)中心，使用工作站進(jìn)行模型訓(xùn)練會(huì)在使用上更加便捷，數(shù)據(jù)模型都在工作站本地，減少了來回傳輸?shù)倪^程，使用上也會(huì)更加穩(wěn)定。相比于本地 PC ，工作站的計(jì)算性能會(huì)更強(qiáng)，散熱會(huì)更好，能支持長時(shí)間的高負(fù)荷工作。

Q5：對(duì)于中小型 AI 開發(fā)團(tuán)隊(duì)來說，工作站 HP AI 開發(fā)平臺(tái)的算力提供和管理方式是否是一個(gè)不錯(cuò)的選擇？

沈濤：對(duì)于非大規(guī)模 AI 模型（需要大規(guī)模分布式訓(xùn)練）的開發(fā)，該方式已經(jīng)能夠滿足正常開發(fā)需求。

3、實(shí)驗(yàn)二：基于基于數(shù)據(jù)集 STS-B 的自然語言文本分類

3.1、實(shí)驗(yàn)說明

該部分實(shí)驗(yàn)由 Kaggle Grandmaster 吳遠(yuǎn)皓完成。

本次實(shí)驗(yàn)通過經(jīng)典的自然語言文本分類數(shù)據(jù)集 STS-B 來體驗(yàn) HP AI 開發(fā)平臺(tái)。

STS-B 數(shù)據(jù)集包含8628個(gè)英語句子對(duì)，其中訓(xùn)練集5749條，驗(yàn)證集1500條，測試集1379條，數(shù)據(jù)集文本來源于報(bào)紙、論壇和圖片題注。該數(shù)據(jù)集也是 The General Language Understanding Evaluation (GLUE)benchmark 的一個(gè)子任務(wù)。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.3.1

實(shí)驗(yàn)?zāi)康氖悄Ｐ托枰o出兩個(gè)句子的相似性度量，任務(wù)的評(píng)價(jià)指標(biāo)是 Pearson 相關(guān)系數(shù)。

3.2 、實(shí)驗(yàn)流程

3.2.1、環(huán)境配置

登錄 HP AI 開發(fā)平臺(tái)，在“模型訓(xùn)練”-“交互式開發(fā)”中，創(chuàng)建 Terminal 類型的開發(fā)環(huán)境，同時(shí)可以直接在“公共鏡像”中選擇我們需要的環(huán)境。其實(shí)際使用體驗(yàn)相當(dāng)于一臺(tái)遠(yuǎn)程服務(wù)器或本地 Docker。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.3.2

創(chuàng)建成功后，會(huì)顯示正在運(yùn)行的應(yīng)用。此時(shí)可以用過命令“ ssh -p 25457 root@192.168.88.80 ”遠(yuǎn)程連接進(jìn)行創(chuàng)建好的環(huán)境。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.3.3

此時(shí)可以用過命令“ ssh -p 25457 root@192.168.88.80 ”遠(yuǎn)程連接進(jìn)行創(chuàng)建好的環(huán)境。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.3.4

3.2.2、實(shí)驗(yàn)運(yùn)行

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

3.3 、實(shí)驗(yàn)結(jié)果

本次實(shí)驗(yàn)選用常用預(yù)訓(xùn)練模型工具包 Transformers ，選擇的模型為谷歌開發(fā)的小型 BERT 模型 google/bert_uncased_L-2_H-128_A-2 。該模型隱層維度128，注意力頭數(shù)量為2，Transformer 層數(shù)也為2，模型大小只有不到17Mb ，是個(gè)精簡的小模型。單從實(shí)驗(yàn)結(jié)果可以看出，模型在 STS-B 數(shù)據(jù)集上也取得了不錯(cuò)的結(jié)果（目前榜單第一名是體積大好幾倍的 ERNIE ，其結(jié)果為0.93）。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.3.5

3.4 、實(shí)驗(yàn)感受

Q1:基于本次實(shí)驗(yàn)中的分區(qū)資源，你在很短的時(shí)間內(nèi)就完成了基于數(shù)據(jù)集STS-B的自然語言文本分類模型的訓(xùn)練，對(duì)此你怎么看？

吳遠(yuǎn)皓：HP AI 開發(fā)平臺(tái)的各環(huán)境間互不影響，任務(wù)展示清晰透明，在多人共享資源的場景下能夠既保證開發(fā)效率，又顯著提高資源的利用效率。

Q2：HP AI開發(fā)平臺(tái)提供的是 Web 端 GUI 交互界面，請(qǐng)談?wù)勀愕氖褂酶惺堋?/span>

吳遠(yuǎn)皓：GUI 界面非常人性化，能夠有效完成資源的組織、管理與隔離。

Q3：在完成此次實(shí)驗(yàn)后，你如何評(píng)價(jià) HP AI 開發(fā)平臺(tái)？

吳遠(yuǎn)皓：通過體驗(yàn)我們發(fā)現(xiàn)，HP AI 開發(fā)平臺(tái)對(duì)使用者非常友好，是計(jì)算資源管理的有力工具。

Q4：對(duì)比公有云、數(shù)據(jù)中心和本地 PC，您覺得通過工作站進(jìn)行模型訓(xùn)練的優(yōu)勢有哪些？

吳遠(yuǎn)皓：這幾個(gè)不太能比較。對(duì)于中小團(tuán)隊(duì)來說公有云有傳輸數(shù)據(jù)的成本，數(shù)據(jù)中心的搭建和運(yùn)營成本太高，而本次 PC 的性能可能達(dá)不到要求，所以為團(tuán)隊(duì)配備一個(gè)共用的工作站是一種既靈活又高效的方案。

Q5：對(duì)于中小型 AI 開發(fā)團(tuán)隊(duì)來說，工作站 HP AI 開發(fā)平臺(tái)的算力提供和管理方式是否是一個(gè)不錯(cuò)的選擇？

吳遠(yuǎn)皓：是的，可以發(fā)揮硬件的最大效能，提高利用率。

4、管理員后臺(tái)展示

前端用戶在通過 HP AI 開發(fā)平臺(tái)進(jìn)行模型訓(xùn)練過程中，管理員可以在后臺(tái)直觀的看到資源的使用反饋。比如在前面兩個(gè)實(shí)驗(yàn)過程中，管理員可以在后臺(tái)看到以下內(nèi)容。

4.1、任務(wù)列表

在 “任務(wù)列表” 里面，我們可以看到 master1 和 master2 創(chuàng)建的任務(wù)。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.4.1

4.2、任務(wù)鏡像

在“任務(wù)鏡像”里面，管理員可以看到 master1 和 master2 所使用的鏡像系統(tǒng)。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.4.2

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.4.3

4.3、監(jiān)控中心

儀表盤

管理員可以看到在實(shí)驗(yàn)期間，節(jié)點(diǎn)和分區(qū)的 CPU、GPU、內(nèi)存、網(wǎng)絡(luò)等參數(shù)的整體使用情況：

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

節(jié)點(diǎn)使用情況：

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.4.5

分區(qū)使用情況：

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.4.6

監(jiān)控報(bào)表

資源使用情況：

在這里默認(rèn)會(huì)選擇一周內(nèi)的資源監(jiān)控?cái)?shù)據(jù)進(jìn)行展示，同時(shí)也可以選擇動(dòng)態(tài)展示數(shù)據(jù)變化

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

節(jié)點(diǎn)使用情況：

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

分區(qū)使用情況：

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

實(shí)時(shí)信息

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.4.7

歷史統(tǒng)計(jì)

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

圖表 2.4.8

5、多用戶使用

在 “ GPU設(shè)置” 里面，GPU 可以切片的數(shù)量選項(xiàng)為1、2、4、8。也就是說每塊 NVIDIA RTX A5000 的 GPU 算力可以平均分為1、2、4、8份，HP Z8 G4 數(shù)據(jù)科學(xué)工作站共有3塊 GPU，最多可將算力平均分為24份，可同時(shí)給24個(gè)開發(fā)者提供算力支持。

HP AI開發(fā)平臺(tái)測評(píng)：多用戶協(xié)同開發(fā)模型和算力資源管理有力工具（hph開發(fā)）

3、總結(jié)

通過本次專業(yè)性測試，我們可以看到，配備了3塊 NVIDIA A5000 GPU 的 HP Z8 G4 數(shù)據(jù)科學(xué)工作站在 HP AI 開發(fā)平臺(tái)的配合下，不僅便于管理員對(duì)工作站的 GPU 資源進(jìn)行管理，更能滿足兩位 Kaggle Grandmaster 的算力需求，保障模型協(xié)同訓(xùn)練的順暢進(jìn)行。

HP AI 開發(fā)平臺(tái)是一款封裝了人工智能所需系統(tǒng)和底層操作的容器云平臺(tái)，在數(shù)據(jù)中心或公有云中同樣可以進(jìn)行單獨(dú)的部署。不過，工作站產(chǎn)品特有的靜音，易部署和高性價(jià)比，讓 HP Z8 G4 數(shù)據(jù)科學(xué)工作站 HP AI 開發(fā)平臺(tái)的整體解決方案在中小企業(yè)辦公場景中的應(yīng)用優(yōu)勢非常顯著。

對(duì)于有同等需求的中小型 AI 開發(fā)團(tuán)隊(duì)來說，搭載2-4塊 GPU 的 HP Z8 G4 數(shù)據(jù)科學(xué)工作站，配合 HP AI 開發(fā)平臺(tái)的資源管理，就可以很輕松的構(gòu)建出一個(gè)性價(jià)比極高的高性能計(jì)算解決和管理方案。因此，工作站 HP AI 開發(fā)平臺(tái)解決方案可以在幫助中小企業(yè)團(tuán)隊(duì)節(jié)省成本的同時(shí)，可以發(fā)揮出硬件的最大效能，提高資源利用率，成為多用戶協(xié)同開發(fā)和資源管理的有利工具。

總體來說，HP AI 開發(fā)平臺(tái)在資源管理和鏡像訂制兩方面都有著獨(dú)到的優(yōu)勢。

其中，在資源管理方面有三大核心優(yōu)勢：

（1）按需分配、自動(dòng)釋放：在任務(wù)提交后，HP AI 開發(fā)平臺(tái)可以按照實(shí)際需求動(dòng)態(tài)分配資源，限制任務(wù)無法超額使用資源，保證資源分配的公平性；與此同時(shí)，它還可以支持任務(wù)排隊(duì)機(jī)制，在任務(wù)運(yùn)行完畢后自動(dòng)釋放資源，讓隊(duì)列中任務(wù)自動(dòng)運(yùn)行；

（2）優(yōu)先搶占：針對(duì)不同的優(yōu)先級(jí)需求，系統(tǒng)可以按照從高到低順序進(jìn)行任務(wù)調(diào)度，同時(shí)支持對(duì)隊(duì)列中任務(wù)的優(yōu)先級(jí)調(diào)整和插隊(duì)，滿足緊急任務(wù)的使用需求；

（3）GPU 細(xì)粒度切分：系統(tǒng)可以根據(jù) GPU 卡的算力，支持對(duì) GPU 卡進(jìn)行細(xì)粒度的切分；同時(shí)支持多個(gè)任務(wù)共享同一張 GPU 卡，充分提高 GPU 卡使用效率，提高任務(wù)密度和吞吐量。

另外，在鏡像訂制方面 HP AI 開發(fā)平臺(tái)有四大關(guān)鍵點(diǎn)：

（1）機(jī)器學(xué)習(xí)鏡像庫：可提供豐富的 TensorFlow 、PyTorch 、MxNet 和 Caffe 鏡像，且版本完整，并和官方機(jī)器學(xué)習(xí)框架 release 保持一致，用戶可以下載并導(dǎo)入使用；

（2）NGC 鏡像：允許用戶查看 NGC 鏡像列表，下載使用 NGC 上 NVIDIA ?提供的鏡像；

（3）自由訂制：針對(duì)用戶對(duì)鏡像的內(nèi)容需求豐富且不統(tǒng)一，訂制化要求高等情況，系統(tǒng)可允許用戶通過 Docker Exec 連接并配置鏡像環(huán)境；該方式適用于所有鏡像，無需鏡像中配置 ssh 服務(wù)

（4）鏡像分享：允許管理員提升私有鏡像為公有鏡像、支持用戶私有鏡像的分享，提高鏡像獲取的效率、減少存儲(chǔ)空間要求。