最近,亞馬遜云科技在紐約峰會上宣布Amazon Elastic Compute Cloud(EC2)P5實(shí)例正式可用。
這是nvidia最新的h100 tensor core gpu支持的新一代gpu實(shí)例,滿足客戶在運(yùn)行人工智能、機(jī)器學(xué)習(xí)和高性能計(jì)算負(fù)載時的高性能和可擴(kuò)展性需求。amazon ec2 p5實(shí)例與以前基于gpu的實(shí)例相比,可以將訓(xùn)練時間從幾天縮短到幾個小時,縮短6倍,最多可以節(jié)省40%的訓(xùn)練費(fèi)用。
這是nvidia最新的h100 tensor core gpu支持的新一代gpu實(shí)例,滿足客戶在運(yùn)行人工智能、機(jī)器學(xué)習(xí)和高性能計(jì)算負(fù)載時的高性能和可擴(kuò)展性需求。amazon ec2 p5實(shí)例與以前基于gpu的實(shí)例相比,可以將訓(xùn)練時間從幾天縮短到幾個小時,縮短6倍,最多可以節(jié)省40%的訓(xùn)練費(fèi)用。
亞馬遜ec2 p5實(shí)例提供8個nvidia的h100天核心gpu、640 gb的高帶寬gpu內(nèi)存、第三代amd epyc處理器、2tb系統(tǒng)內(nèi)存和30tb本地nvme內(nèi)存。此外,amazon ec2 p5實(shí)例提供3200gbps的聚合網(wǎng)絡(luò)帶寬,支持gpudirect rdma傳輸繞過cpu的節(jié)點(diǎn)間通信,提供更低的延時和更高的橫向擴(kuò)展。
今年3月,亞馬遜云科技和英偉達(dá)宣布多邊合作,以訓(xùn)練日益復(fù)雜的大規(guī)模語言模式,開發(fā)生成的ai應(yīng)用軟件,構(gòu)建世界上最可擴(kuò)展性的付費(fèi)人工智能基礎(chǔ)設(shè)施。
當(dāng)時,亞馬遜云提前發(fā)布了nvidia h100 ten core gpu支持的亞馬遜ec2 p5實(shí)例,建立并訓(xùn)練了大規(guī)模的機(jī)器學(xué)習(xí)模型,提供最多20 exaflops的性能。亞馬遜云(amazon cloud)與英偉達(dá)(envidia)的合作在十多年間取得了許多成果,并提供了多種gpu案例,支持視覺計(jì)算、人工智能和高性能計(jì)算集群。例如,cg1實(shí)例(2010年)、g2(2013年)、p2(2016年)、p3(2017年)、g3(2017年)、p3dn(2018年)、g4(2019年)、p4(2020年)、g5(2021年)、p4de(2022年)。
目前,機(jī)器學(xué)習(xí)模型的規(guī)模已經(jīng)達(dá)到數(shù)萬個參數(shù),這種復(fù)雜性大大增加了顧客訓(xùn)練模型所需的時間。例如,最新大型語言模型的訓(xùn)練時間長達(dá)幾個月。在高性能計(jì)算領(lǐng)域也出現(xiàn)了類似的趨勢。隨著高性能計(jì)算使客戶的數(shù)據(jù)收集更加準(zhǔn)確,數(shù)據(jù)集達(dá)到eb水平,客戶正在尋找更快解決日益復(fù)雜的應(yīng)用程序的方法。
亞馬遜ec2 p5實(shí)例越來越復(fù)雜的巨大的語言模式和訓(xùn)練計(jì)算機(jī)視覺模式,實(shí)行適于、答辯、代碼生成、視頻及圖像生成、語音識別等ai最繁瑣的計(jì)算密集型生成滿足應(yīng)用程序的要求。與之前基于gpu的實(shí)例相比,amazon ec2 p5實(shí)例對這些應(yīng)用程序的訓(xùn)練時間縮短了6倍。像使用變形金剛框架的語言模型一樣,在工作負(fù)載中可以使用精度較低的fp8數(shù)據(jù)類型的用戶,可通過nviia的變形金剛引擎支援,最大提高6倍的性能。
高性能計(jì)算客戶可以使用amazon ec2 p5實(shí)例在藥物發(fā)現(xiàn)、地震分析、天氣預(yù)報(bào)和金融建模等領(lǐng)域大規(guī)模發(fā)布高費(fèi)用應(yīng)用程序。此外,amazon ec2 p5支持使用動態(tài)程序(dynamic programming)應(yīng)用程序的客戶使用新的dpx指令集來加速基因組測序和數(shù)據(jù)分析。
通過amazon ec2 p5實(shí)例,客戶可以探索以前看似不可能解決的問題,提供更快的重復(fù)解決方案,并加快進(jìn)入市場的速度。