21世紀經(jīng)濟報道記者白楊 北京報道
(資料圖片僅供參考)
隨著AI大模型參數(shù)量從億級飆升到萬億級,人們對于支撐大模型訓(xùn)練的超大規(guī)模算力也越發(fā)關(guān)注。而談及算力,GPU自然是核心話題,但是,GPU也不是唯一。
因為大模型龐大的訓(xùn)練任務(wù),需要由大量GPU服務(wù)器組成的算力集群來提供算力,而這些服務(wù)器之間要通過網(wǎng)絡(luò)連接,進行海量數(shù)據(jù)交換。有數(shù)據(jù)顯示,算力集群每次計算背后,服務(wù)器間的同步通信量會高達百GB。
所以單個GPU的性能再強,如果網(wǎng)絡(luò)性能跟不上,那整個算力集群的計算能力也會大打折扣。因此,大集群不等于大算力,相反,GPU集群越大,產(chǎn)生的額外通信損耗越多。
據(jù)悉,千億、萬億參數(shù)規(guī)模的大模型,訓(xùn)練過程中通信占比最大可達50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠遠無法支撐。同時,傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴重浪費。
這也進一步說明,大模型發(fā)展是典型的木桶效應(yīng),任何一塊短板,都會影響整體的性能。而大帶寬、高利用率、信息無損,則是AI大模型時代網(wǎng)絡(luò)能力面臨的核心挑戰(zhàn)。
針對網(wǎng)絡(luò)能力,6月26日,騰訊云首次對外完整披露了其自研的星脈高性能計算網(wǎng)絡(luò)。據(jù)介紹,星脈網(wǎng)絡(luò)具備3.2T通信帶寬,能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡的超大計算規(guī)模。
騰訊云副總裁王亞晨表示,星脈網(wǎng)絡(luò)在交換機、通信協(xié)議、通信庫以及運營系統(tǒng)等方面,進行了軟硬一體的升級和創(chuàng)新,是為大模型而生的網(wǎng)絡(luò)架構(gòu)。
其中在硬件方面,星脈網(wǎng)絡(luò)基于騰訊的網(wǎng)絡(luò)研發(fā)平臺,采用全自研設(shè)備構(gòu)建互聯(lián)底座,可實現(xiàn)自動化部署和配置;在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,能夠?qū)崟r監(jiān)測并調(diào)整網(wǎng)絡(luò)擁塞,滿足大量服務(wù)器節(jié)點之間的通信需求,使集群通信效率達90%以上。
此外,騰訊云還為星脈網(wǎng)絡(luò)設(shè)計了高性能集合通信庫TCCL,通過融入定制化解決方案,使系統(tǒng)實現(xiàn)了微秒級感知網(wǎng)絡(luò)質(zhì)量。結(jié)合動態(tài)調(diào)度機制合理分配通信通道,可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題,讓通信時延降低40%。
王亞晨表示,網(wǎng)絡(luò)的可用性,也決定了整個集群的計算穩(wěn)定性。為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研了端到端的全棧網(wǎng)絡(luò)運營系統(tǒng),通過端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓(xùn)練系統(tǒng)的整體部署時間也從19天縮減至4.5天。
在AI大模型的推動下,網(wǎng)絡(luò)技術(shù)正在加速演進。而騰訊云星脈網(wǎng)絡(luò)背后,也是騰訊過去三代網(wǎng)絡(luò)技術(shù)演進的成果。
在騰訊發(fā)展初期,數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶訪問數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成,網(wǎng)絡(luò)架構(gòu)以接入、匯聚、出口為主。這一階段主要使用了商用網(wǎng)絡(luò)設(shè)備,搭建標準化數(shù)據(jù)中心網(wǎng)絡(luò),支撐QQ在線人數(shù)增長超過1億,服務(wù)器規(guī)模增長超10萬。
隨著大數(shù)據(jù)和云計算的興起,服務(wù)器之間的東西向流量逐漸增多,云租戶對網(wǎng)絡(luò)產(chǎn)生了虛擬化和隔離的要求。數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)逐漸演變?yōu)橥瑫r承載南北向和東西向流量的云網(wǎng)絡(luò)架構(gòu),騰訊云開始構(gòu)建全自研網(wǎng)絡(luò)設(shè)備與管理系統(tǒng),打造超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò),服務(wù)器規(guī)模近200萬臺。
而隨著AI大模型的出現(xiàn),騰訊云推出的星脈網(wǎng)絡(luò),采用了東西向、南北向流量的分離架構(gòu),并構(gòu)建了獨立的超大帶寬、符合AI訓(xùn)練流量特征的網(wǎng)絡(luò)架構(gòu),配合自研軟硬件設(shè)施,實現(xiàn)整套系統(tǒng)的自主可控,也能滿足超強算力對網(wǎng)絡(luò)性能的新需求。
據(jù)悉,騰訊云此前發(fā)布的新一代HCC高性能計算集群,正是基于星脈網(wǎng)絡(luò)打造,可以實現(xiàn)3.2T超高互聯(lián)帶寬,算力性能較前代提升了3倍。
標簽:
智通財經(jīng)APP獲悉,德國6月IFO商業(yè)預(yù)期指數(shù)從上月的88 3降至83 6,為今
金融界6月26日消息近日,科興制藥獲工銀瑞信、博時基金等機構(gòu)調(diào)研。調(diào)
智通財經(jīng)APP獲悉,德國6月IFO商業(yè)預(yù)期指數(shù)從上月的88 3降至83 6,為今
6月26日盤前,城發(fā)環(huán)境(000885 SZ)一邊回復(fù)深交所的關(guān)注函,一邊發(fā)出
端午節(jié)前曾跌停的超訊通信(603322),節(jié)后第一個交易日即6月26日再遇跌
旗袍,中國和世界華人女性的傳統(tǒng)服裝,被譽為中國國粹和女性國服。雖然其定義和產(chǎn)生的時間至今還存有諸多爭議,但它仍然是中國悠久服飾文化
7月21日,北京市政府發(fā)布《北京市電影局關(guān)于在疫情防控常態(tài)化條件下有序推進電影院恢復(fù)開放的通知》,宣布全市低風險地區(qū)影院,可于7月24日
?武漢7·16渡江節(jié)組委會14日發(fā)布公告,由于長江武漢關(guān)水位超警戒水位,按照規(guī)定取消2020年第46屆武漢7·16渡江節(jié)。受近期持續(xù)強降雨影響,
過去一段時間,國家級非遺項目灰塑傳承人邵成村,多次在陳家祠等工作現(xiàn)場,向身邊那些帶著好奇目光的人們講解灰塑的種種技術(shù)細節(jié):草根灰、
7月13日,位于璧山區(qū)南門唐城夜市街區(qū)的璧山冷酒夜市開街。這是璧山區(qū)打造夜間經(jīng)濟消費載體、培育夜間經(jīng)濟活動品牌的舉措之一。璧山市民一