互聯(lián)網(wǎng)大數(shù)據(jù)和數(shù)據(jù)共享平臺(tái)的發(fā)展,獲得了海量的數(shù)據(jù)積累,也為深度學(xué)習(xí)的發(fā)展提供了強(qiáng)大的推動(dòng)力。而由于深度學(xué)習(xí)的網(wǎng)絡(luò)模型復(fù)雜、參數(shù)多、收斂困難和樣本數(shù)量龐大等特點(diǎn),對(duì)深度學(xué)習(xí)硬件系統(tǒng)的計(jì)算能力提出了更高的要求。曙光GPU深度學(xué)習(xí)平臺(tái)解決方案從計(jì)算加速、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、作業(yè)調(diào)度系統(tǒng)、集群管理及軟件框架等方面進(jìn)行整體的設(shè)計(jì)和優(yōu)化,幫助用戶解決深度學(xué)習(xí)在訓(xùn)練過程中所面臨的海量計(jì)算問題,簡化構(gòu)建深度學(xué)習(xí)平臺(tái)的難度,降低業(yè)務(wù)投入成本,賦能用戶深度學(xué)習(xí)研究??蓮V泛應(yīng)用于圖像識(shí)別、人臉識(shí)別、語音識(shí)別、自然語言處理等應(yīng)用場景。
曙光GPU深度學(xué)習(xí)平臺(tái)計(jì)算系統(tǒng)采用曙光新一代 XMachine高性能GPU服務(wù)器組成大規(guī)模GPU訓(xùn)練、推理集群,輸出強(qiáng)大算力;計(jì)算數(shù)據(jù)、日志log和模型數(shù)據(jù)等統(tǒng)一存儲(chǔ)在曙光ParaStor300分布式并行存儲(chǔ)中,能夠?qū)崿F(xiàn)全局文件的統(tǒng)一訪問和并發(fā)讀寫;該系統(tǒng)支持Caffe/TensorFlow等多種主流深度學(xué)習(xí)框架、應(yīng)用容器技術(shù),提供數(shù)據(jù)集管理、模型管理、訓(xùn)練等服務(wù)。幫助用戶解決多用戶組資源分配、開發(fā)環(huán)境快速搭建、應(yīng)用程序靈活遷移等技術(shù)需求。使用戶在集群上輕松部署深度學(xué)習(xí)應(yīng)用、跟蹤試驗(yàn)和訓(xùn)練、發(fā)布模型,而無需關(guān)心繁瑣部署運(yùn)維,專注于核心業(yè)務(wù)。