以客戶為中心,提供定制化或一站式的全棧解決方案,賦能千行百業(yè)
高性能計(jì)算(High performance computing) 指通常使用很多處理器(作為單個(gè)機(jī)器的一部分)或者某一集群中組織的幾臺(tái)計(jì)算機(jī)(作為單個(gè)計(jì)算資源操作)的計(jì)算系統(tǒng)和環(huán)境。高性能集群上運(yùn)行的應(yīng)用程序一般使用并行算法,把一個(gè)大的普通問題根據(jù)一定的規(guī)則分為許多小的子問題,在集群內(nèi)的不同節(jié)點(diǎn)上進(jìn)行計(jì)算,而這些小問題的處理結(jié)果,經(jīng)過處理可合并為原問題的最終結(jié)果。由于這些小問題的計(jì)算一般是可以并行完成的,從而可以縮短問題的處理時(shí)間。高性能計(jì)算在一個(gè)國家的科研中居于基礎(chǔ)性地位,是科技創(chuàng)新的動(dòng)力源之一。以E級(jí)超級(jí)計(jì)算機(jī)為代表的高性能計(jì)算具有廣闊的應(yīng)用前景,有望在氣候科學(xué)、可再生能源、基因組學(xué)、天體物理學(xué)以及人工智能等領(lǐng)域“大顯身手”。
寶德公司力推的高性能集群是專門為滿足大規(guī)模分析計(jì)算而設(shè)計(jì)的超級(jí)并行計(jì)算機(jī)集群系統(tǒng),它遵循 Intel 開放的 HPC 生態(tài)體系架構(gòu)來系統(tǒng)的部署所有的軟硬件:采用Intel 基于酷睿架構(gòu)的雙路 Xeon 和多路 Xeon 作為計(jì)算節(jié)點(diǎn)。寶德高性能計(jì)算集群采用集群體系結(jié)構(gòu),通過標(biāo)準(zhǔn)開放的高速網(wǎng)絡(luò)實(shí)現(xiàn)互連,運(yùn)行開放源代碼的 Linux 系統(tǒng),對(duì)外提供單一系統(tǒng)接口,它針對(duì)大規(guī)??茖W(xué)并行計(jì)算設(shè)計(jì),兼顧事務(wù)處理和網(wǎng)絡(luò)信息服務(wù)。
該方案主要通過構(gòu)建管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、以及分布式存儲(chǔ)資源池,構(gòu)建計(jì)算力高達(dá)100Tflops以上的計(jì)算能力高性能計(jì)算集群,存儲(chǔ)采用高性能低延遲得SSD分布式存儲(chǔ)池,以及大容量得HDD分布式存儲(chǔ)池。滿足對(duì)于高性能計(jì)算力以及高速存儲(chǔ)IO帶寬的需求。
【硬件部分】
計(jì)算節(jié)點(diǎn):CPU計(jì)算節(jié)點(diǎn)
管理節(jié)點(diǎn):雙路服務(wù)器
登陸節(jié)點(diǎn):雙路服務(wù)器
存儲(chǔ)節(jié)點(diǎn):分布式并行存儲(chǔ)
網(wǎng)絡(luò)系統(tǒng):包含以太網(wǎng)絡(luò)系統(tǒng)、 光纖存儲(chǔ)網(wǎng)絡(luò)、機(jī)柜、PDU等
【軟件部分】
操作系統(tǒng):CentOS 7
集群軟件:資源管理與調(diào)度軟件Powercloud
開發(fā)環(huán)境:Fortran/C/C++等
并行環(huán)境:OpenMP、OpenMPI、MVPAICH2等MPI并行環(huán)境
文件系統(tǒng):分布式并行文件系統(tǒng)
應(yīng)用軟件:客戶自帶應(yīng)用軟件
計(jì)算網(wǎng)絡(luò)采用高速的100G IB網(wǎng)絡(luò),確保用戶的計(jì)算任務(wù)在運(yùn)行過程中不受網(wǎng)絡(luò)帶寬的限制,業(yè)務(wù)網(wǎng)絡(luò)使用25G以太網(wǎng)路,延遲低速度快。兩層高速網(wǎng)絡(luò)保障集群中所有節(jié)點(diǎn)無阻塞、全線速的運(yùn)行,可充分滿足高速互聯(lián)的需求。
計(jì)算節(jié)點(diǎn)由寶德四路服務(wù)器組成,每臺(tái)四路服務(wù)器可支持4個(gè)英特爾可擴(kuò)展系列處理器,以及最大96個(gè)內(nèi)存插槽,多核心計(jì)算能力和大內(nèi)存運(yùn)行能力,為要求苛刻的HPC和橫向擴(kuò)展工作負(fù)載提供動(dòng)力。
存儲(chǔ)資源分為兩個(gè)分布式資源池,其中SSD存儲(chǔ)池運(yùn)行重要數(shù)據(jù)和熱數(shù)據(jù),HDD存儲(chǔ)池保存冷數(shù)據(jù)和大容量數(shù)據(jù),同時(shí)兼顧IO性能和容量。
整套集群采用多種可靠性設(shè)計(jì)方案大幅度提升系統(tǒng)的可靠性,確保系統(tǒng)無單點(diǎn)故障。同時(shí)為用戶提供簡(jiǎn)單易用的使用和維護(hù)接口,降低系統(tǒng)的使用維護(hù)門檻,提高整套系統(tǒng)的維護(hù)效率