容器化人工智能開(kāi)發(fā)平臺(tái)
-
容器化人工智能開(kāi)發(fā)平臺(tái)(1/2)
-
容器化人工智能開(kāi)發(fā)平臺(tái)(2/2)
容器化人工智能開(kāi)發(fā)平臺(tái)解決方案實(shí)現(xiàn)了對(duì)深度學(xué)習(xí)開(kāi)發(fā)環(huán)境的快速部署,針對(duì)深度學(xué)習(xí)開(kāi)發(fā)流程,對(duì)運(yùn)算資源按照訓(xùn)練任務(wù)進(jìn)行分割和分發(fā),并額外支持容器鏡像管理、權(quán)限管理、交互界面圖形化等功能,以幫助用戶(hù)更快速的介入人工智能領(lǐng)域,聚焦實(shí)際算法的優(yōu)化和迭代,促進(jìn)人工智能技術(shù)在各行各業(yè)的快速落地。
方案技術(shù)架構(gòu)
方案物理架構(gòu)
方案構(gòu)成
SothisAI軟件平臺(tái):曙光SothisAI是容器化的企業(yè)級(jí)分布式深度學(xué)習(xí)平臺(tái),提供高效快速的人工智能解決方案,一站式深度學(xué)習(xí)解決方案。幫助用戶(hù)解決多用戶(hù)組資源分配、開(kāi)發(fā)環(huán)境快速搭建、應(yīng)用程序靈活遷移等技術(shù)需求。SothisAI支持主流深度學(xué)習(xí)框架,提供圖形化、SSH、Jupyer等多種接入方式,并采用Slurm和Kubernetes雙調(diào)度引擎支撐,可滿(mǎn)足不同應(yīng)用場(chǎng)景特點(diǎn)。
基于GPU的異構(gòu)計(jì)算集群:針對(duì)深度學(xué)習(xí)的應(yīng)用特點(diǎn),采用4U8卡的高密度自研服務(wù)器X780和X795,搭配主流人工智能異構(gòu)加速卡,為集群提供強(qiáng)勁的運(yùn)算能力支撐。同時(shí)集群采用的高帶寬、低延遲的Infiniband網(wǎng)絡(luò),能滿(mǎn)足深度學(xué)習(xí)多機(jī)多卡網(wǎng)絡(luò)模型訓(xùn)練時(shí),對(duì)PCI-E的傳輸帶寬的高要求,并保證整個(gè)系統(tǒng)的數(shù)據(jù)傳輸效率,減少網(wǎng)絡(luò)數(shù)據(jù)傳輸帶來(lái)的影響。
ParaStor存儲(chǔ)系統(tǒng):ParaStor是曙光自主開(kāi)發(fā)的分布式并行存儲(chǔ)系統(tǒng),目前最新版本為Parastor300,采用多副本、N+M糾刪碼等數(shù)據(jù)保護(hù)技術(shù)、全冗余設(shè)計(jì),支持單一存儲(chǔ)命名空間、支持容量海量擴(kuò)展,性能線性擴(kuò)展,能夠充分滿(mǎn)足深度學(xué)習(xí)應(yīng)用場(chǎng)景中存在對(duì)數(shù)據(jù)集的頻繁讀寫(xiě),多用戶(hù)同時(shí)并發(fā)訪問(wèn),訓(xùn)練時(shí)頻繁的數(shù)據(jù)交互等應(yīng)用需求。