以客戶為中心,提供定制化或一站式的全棧解決方案,賦能千行百業(yè)
寶德依托強(qiáng)大的研發(fā)能力以及豐富的行業(yè)經(jīng)驗(yàn),針對(duì)機(jī)器/深度學(xué)習(xí)科研、實(shí)訓(xùn)教學(xué)等場(chǎng)景提供一站式解決方案?;谛碌脑O(shè)計(jì)理念,打造出一款功能完善的PLStack人工智能管理平臺(tái),平臺(tái)能提供端到端的流程化管理,涵蓋數(shù)據(jù)標(biāo)注、算法開發(fā)、模型訓(xùn)練、模型管理、模型服務(wù)等AI完整生命周期流程支持。
PLStack平臺(tái)采用容器輕量級(jí)虛擬化方式作為基礎(chǔ),實(shí)現(xiàn)對(duì)多集群多節(jié)點(diǎn)的GPU、CPU、內(nèi)存、存儲(chǔ)等基礎(chǔ)設(shè)施資源池化;基于Kubernetes定制化開發(fā)的編排調(diào)度工具,實(shí)現(xiàn)資源高效靈活調(diào)度;同時(shí)企業(yè)級(jí)設(shè)計(jì)理念使平臺(tái)具備多租戶多層級(jí)用戶管理、權(quán)限管理、資源管理、vGPU等豐富的平臺(tái)能力,全方位滿足用戶對(duì)AI開發(fā)平臺(tái)高可用、高可靠、高穩(wěn)定要求。大大緩解深度學(xué)習(xí)算法訓(xùn)練的瓶頸,從而釋放人工智能的全新能力,讓用戶不再因?yàn)镚PU的昂貴望而卻步。
平臺(tái)為用戶提供簡(jiǎn)潔的WEB界面,豐富的功能以及多樣化工具。如開發(fā)模塊提供一鍵式環(huán)境生成、在線交互式開發(fā)工具M(jìn)lab;模型訓(xùn)練提供參數(shù)調(diào)優(yōu)、分布式并行訓(xùn)練等;模型服務(wù)提供在線模型部署推理、模型服務(wù)調(diào)用;平臺(tái)同時(shí)集成數(shù)據(jù)標(biāo)注工具、鏡像倉庫等,實(shí)現(xiàn)一站式AI開發(fā)。
同時(shí)深度學(xué)習(xí)框架鏡像以插件的方式接入系統(tǒng),集成了多種業(yè)界常用框架,如 Tensorflow,PyTorch ,Caffe和 MXnet等,支持自定義擴(kuò)展,極大提升整體系統(tǒng)的擴(kuò)展性和可維護(hù)性。
PLStack AI平臺(tái)整體分為三層:基礎(chǔ)設(shè)施層、資源調(diào)度層、平臺(tái)功能層,架構(gòu)如下圖:
基礎(chǔ)設(shè)施層主要包括物理機(jī)、虛擬機(jī)、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備、一體機(jī)等資源,為業(yè)務(wù)提供基礎(chǔ)算力支撐。
資源調(diào)度層借助Docker引擎實(shí)現(xiàn)CPU、GPU、內(nèi)存、存儲(chǔ)等資源的輕量級(jí)虛擬化,基于Kubernetes 定制化研發(fā)實(shí)現(xiàn)對(duì)任務(wù)和資源的靈活編排調(diào)度,具有多租戶隔離、任務(wù)資源邏輯隔離等特點(diǎn),結(jié)合高可靠的存儲(chǔ)服務(wù)、分布式并行訓(xùn)練服務(wù)等功能組件,為上層業(yè)務(wù)功能模塊提供堅(jiān)實(shí)的基石。
平臺(tái)功能層提供端到端 AI科研流程支撐,其中用戶端包含了開發(fā)模塊、AI框架、訓(xùn)練模塊、數(shù)據(jù)管理模塊、模型服務(wù)模塊、鏡像倉庫、工單管理等;管理端包含計(jì)量計(jì)費(fèi)、多租戶管理、告警監(jiān)控設(shè)置、平臺(tái)運(yùn)營(yíng)運(yùn)維等。
PLStack平臺(tái)由管理端和業(yè)務(wù)端兩個(gè)系統(tǒng)組成。管理端為平臺(tái)管理員視圖,包括資源總覽、業(yè)務(wù)管理、產(chǎn)品管理、運(yùn)維管理、配置管理、財(cái)務(wù)管理、安全中心等7個(gè)模塊;業(yè)務(wù)視圖為普通用戶視圖,包括賬號(hào)中心、資源總覽、開發(fā)環(huán)境、模型訓(xùn)練、存儲(chǔ)管理、模型服務(wù)、模型管理、鏡像倉庫等八個(gè)模塊。如下圖所示。
寶德人工智能集群方案通過分析用戶的研究方向和實(shí)際需求,利用PLStack AI管理軟件平臺(tái)再結(jié)合寶德最新一代服務(wù)器,打造了一套計(jì)算能力強(qiáng)、資源利用率高、管理便捷和具有超高安全性的AI集群平臺(tái)。
1、提供對(duì)容器+鏡像的管理,支持網(wǎng)頁端容器全生命周期管理,對(duì)異構(gòu)資源進(jìn)行高效管理、調(diào)度、監(jiān)控。
2、多數(shù)據(jù)中心管理,用戶可以選擇使用某一數(shù)據(jù)中心的資源;同時(shí)具備3層組織架構(gòu)管理,如管理員、組織管理員、成員等,通過設(shè)定對(duì)組織及用戶進(jìn)行資源配額;
3、平臺(tái)集成多種深度學(xué)習(xí)各種框架(如TensorFlow,pytorch,caffe,keras等)用戶模型開發(fā)、模型訓(xùn)練等;支持自定義框架擴(kuò)展;
4、平臺(tái)具備多種計(jì)費(fèi)模式;提供完整的計(jì)量計(jì)費(fèi)功能,管理可通過計(jì)費(fèi)模塊對(duì)GPU、CPU、內(nèi)存等資源進(jìn)行費(fèi)用設(shè)定,根據(jù)用戶使用時(shí)長(zhǎng)進(jìn)行計(jì)費(fèi);
5、支持多個(gè)物理區(qū)域的GPU卡資源統(tǒng)一納管,統(tǒng)一分配;支持單機(jī)單卡,單機(jī)多卡,多機(jī)多卡以及單GPU卡多用戶共享方式分配資源;以任務(wù)方式分配計(jì)算資源;任務(wù)完成計(jì)算資源回收;
6、支持管理集群中GPU服務(wù)器及GPU卡的運(yùn)行狀況,資源使用情況,包含GPU總數(shù)/使用數(shù),GPU核心平均利用率,GPU顯存平均利用率等
7、支持用戶按需設(shè)置深度學(xué)習(xí)環(huán)境,包括深度學(xué)習(xí)框架,網(wǎng)絡(luò)模型,GPU及CPU資源;訓(xùn)練完成銷毀運(yùn)行環(huán)境,釋放計(jì)算資源;支持快速創(chuàng)建深度學(xué)習(xí)環(huán)境,應(yīng)用程序及硬件資源相互隔離,獨(dú)立運(yùn)行;
8、內(nèi)置上百種各種優(yōu)化AI算法,可滿足多個(gè)業(yè)務(wù)場(chǎng)景需求,降低用戶門檻,提升AI開發(fā)效率
9、提供web端高效協(xié)同AI算法模型開發(fā)工具,提供Jupyter lab和jupyter notebook的集成,支持AI相關(guān)數(shù)據(jù)集成到Jupyter中;。
10、支持web及shell提交訓(xùn)練任務(wù),支持用戶可以實(shí)時(shí)查看自己任務(wù)的運(yùn)行結(jié)果;
11、支持可視化作業(yè)管理、版本管理、克隆任務(wù)(參數(shù)管理)等功能,基于參數(shù)管理可以快速創(chuàng)建任務(wù),提升模型訓(xùn)練任務(wù)的迭代效率;
12、支持基于常用的AI算法框架及準(zhǔn)備好的算法可以進(jìn)行多版本任務(wù)參數(shù)調(diào)優(yōu),優(yōu)化并增強(qiáng)機(jī)器學(xué)習(xí)全生命周期管理流程;
13、集群可實(shí)現(xiàn)分布式并行訓(xùn)練功能;支持動(dòng)態(tài)申請(qǐng)分布式訓(xùn)練所需要的GPU數(shù)量和節(jié)點(diǎn)數(shù)量,且平臺(tái)可以實(shí)時(shí)監(jiān)控每個(gè)節(jié)點(diǎn)的運(yùn)行情況;
14、具備本地鏡像倉庫,支持鏡像分組管理及分享,允許用戶上傳自定義鏡像,支持將用戶環(huán)境一鍵打包至鏡像倉庫,且支持將權(quán)限設(shè)置為公有或者私有;
15、支持對(duì)多版本的模型統(tǒng)一管理功能,可以集中管理所有在模型訓(xùn)練中得到的模型,導(dǎo)入并管理在本地開發(fā)的模型,滿足模型需要不斷迭代和調(diào)試的管理需求;
16、提供scp訪問/Web訪問/擴(kuò)容/重命名/修改密碼/共享存儲(chǔ)/刪除等功能;能支持個(gè)人用戶上傳數(shù)據(jù)集之后可由多用戶同時(shí)調(diào)用
異構(gòu)硬件融合和算力優(yōu)化,支持多種CPU和GPU卡,同時(shí)集成多種主流的深度學(xué)習(xí)框架和交互式IDE開發(fā)環(huán)境。
借助容器、K8S等云計(jì)算技術(shù)打造的AI平臺(tái)再結(jié)合超強(qiáng)算力的 GPU 集群,提供高并行、高吞吐、低時(shí)延的極致性能,在科學(xué)計(jì)算表現(xiàn)中性能比傳統(tǒng)架構(gòu)提高 50 倍以上。
彈性計(jì)算資源和算力優(yōu)化管理,vGPU技術(shù)、GPU共享、多機(jī)多卡分布式并行訓(xùn)練、多層級(jí)組織架構(gòu)、組織及用戶資源配額等。
平臺(tái)預(yù)置TensorFlow 、 PyTorch、Caffe 等多種深度學(xué)習(xí)開源框架,無需安裝配置環(huán)境,一鍵快速提交訓(xùn)練任務(wù)。同時(shí)數(shù)據(jù)模型分析交互式開發(fā)工具 MLab,還支持一鍵添加代碼和數(shù)據(jù)集。
高效的資源優(yōu)化調(diào)度和管理顯著地降低資源使用和運(yùn)維成本,多種計(jì)費(fèi)模式極大地降低前期投入。
平臺(tái)完善的環(huán)境隔離及網(wǎng)絡(luò)監(jiān)控服務(wù),保障用戶數(shù)據(jù)和服務(wù)安全無虞。