??新智元報道??
??新智元報道??
【新智元導(dǎo)讀】在英偉達市值猛漲、各家科技巨頭囤芯片的熱潮中,我們往往會忽視GPU芯片是如何轉(zhuǎn)變?yōu)閿?shù)據(jù)中心算力的。最近,一篇SemiAnalysis的技術(shù)文章就深入解讀了10萬卡H100集群的構(gòu)建過程。
如火如荼的AI競爭中,「算力之戰(zhàn)」同樣熱火朝天。
包括但不限于OpenAI、微軟、xAI和Meta在內(nèi)的多個頭部公司都在爭相建立超過10萬卡的GPU集群,在這個規(guī)模上,僅僅是服務(wù)器的成本就超過40億美元,還要受到數(shù)據(jù)中心容量和電力不足等多項因素的限制。
我們可以做一個簡單的估算,一個10萬卡集群每年耗電量約為1.59太瓦時(terawatt·h,即10e9千瓦時),按照美國電力的標(biāo)準(zhǔn)費率0.78美元/千瓦時,每年的用電成本就達到了1.24億美元。
為了說明10萬個GPU集群的強大計算能力,OpenAI在訓(xùn)練GPT-4時使用了大約2.15e25 BF16 FLOP(21.5百萬億ExaFLOP),在大約2萬個A100上進行了90到100天的訓(xùn)練,峰值吞吐量只有6.28 ExaFLOPS。
若使用10萬個H100代替A100,峰值將飆升至198/99 FP8/FP16 ExaFLOPS,增加了31.5倍。
在H100上,AI實驗室在訓(xùn)練萬億參數(shù)模型時,F(xiàn)P8模型FLOP利用率(MFU)最高可達35%,F(xiàn)P16 MFU則為40%。
MFU全稱為model full utilization,是衡量潛在FLOP的有效吞吐量和利用率峰值的指標(biāo),考慮了功率限制、通信不穩(wěn)定、重新計算、滯后和低效內(nèi)核等各種瓶頸。
使用FP8,一個10萬卡H100的集群只需4天就能訓(xùn)練GPT-4。如果進行100天的訓(xùn)練,你可以實現(xiàn)大約6e26(600百萬億ExaFLOP)的有效FP8 FLOP。不過,硬件的低可靠性會顯著降低MFU。
很多人認為,AI的三大基礎(chǔ)設(shè)施:數(shù)據(jù)、算法、算力中,門檻最低的就是算力。只要有錢有資源,買到足夠多的芯片,算力短缺就不是問題。
但是,SemiAnalysis最近的一篇文章指出,事實絕非如此。構(gòu)建算力集群,絕對比一擲千金要復(fù)雜得多。
GPT-4發(fā)布以來,似乎還沒有出現(xiàn)下一代能力更強的LLM,很重要的原因就是幾乎沒有組織能夠大規(guī)模增加專用于單個模型的計算量。
Gemini Ultra、Nemotron 340B和Llama 3這些模型與GPT-4的訓(xùn)練計算量相近(約為2e25 FLOP),甚至更高,但使用了較差的集群架構(gòu),導(dǎo)致它們無法進一步釋放能力。
那么,在巨頭們部署10萬卡GPU集群的過程中,究竟面臨哪些障礙?
電力挑戰(zhàn)
10萬卡集群所需的關(guān)鍵IT部件的總功率約為150MW,相比之下,美國最大的國家實驗室超算El Capitan的關(guān)鍵IT功率只有30MW,約為五分之一,可謂是相形見絀。
在如此龐大的功率中,GPU本身的耗電實際上只有不到一半。
根據(jù)官方參數(shù),每張H100的功率為700W,但服務(wù)器上還有CPU、網(wǎng)卡(NIC)、供電單元(power supply unit)等設(shè)備,功率約為575W。
除了H100服務(wù)器,集群中還需要部署一系列的存儲服務(wù)器、網(wǎng)絡(luò)交換機、CPU節(jié)點、光纖收發(fā)器和許多其他設(shè)備,約占IT功耗的10%。
目前沒有任何一座數(shù)據(jù)中心的大樓有能力部署150MW功率的設(shè)備。因此,已建成的10萬GPU集群通常是分布在一整個園區(qū)中,而非單座大樓。
由于可用的數(shù)據(jù)中心有限,xAI甚至選擇將田納西州孟菲斯的一家舊工廠改造為數(shù)據(jù)中心。
因為服務(wù)器分布在整個園區(qū)而非單棟大樓內(nèi),聯(lián)網(wǎng)成本就會無形增高,因為光纖收發(fā)器的成本與傳輸距離成正比。
「多?!筍R和AOC收發(fā)器僅支持最長約50m的傳輸距離,顯然不可用。長距離「單?!笵R和FR收發(fā)器能可靠地在500m~2km范圍內(nèi)傳輸信號,但成本是前者的2.5倍。
此外,園區(qū)級別的800相干光收發(fā)器的傳輸距離可以超過2km,但價格更貴,要高出10倍以上。
H100的小型集群通常只使用多模收發(fā)器,通過一層或兩層的交換機,以400G的速度將每個GPU連接在一起。如果是大型集群,則需要增加更多層的交換機,光纖設(shè)備也會極其昂貴。
在大型集群的園區(qū)中,每棟大樓包含一個或多個pod,由多模收發(fā)器(或者較為廉價的銅纜)相連,形成一個「計算島」。每個計算島之間再通過長距離收發(fā)器互連,島內(nèi)帶寬較高,島間帶寬較低。
并行化方案
數(shù)據(jù)并行
在較大參數(shù)的訓(xùn)練中,一般有3種不同類型的并行化——數(shù)據(jù)并行(data parallelism)、張量并行(tensor parallelism)與流水線并行(pipeline parallelism)。
數(shù)據(jù)并行是其中最簡單的并行方式:每個GPU擁有模型權(quán)重的全部副本,并分別保存一部分?jǐn)?shù)據(jù)。
前向計算過程中每個GPU獨自工作,梯度更新時將所有GPU計算出的梯度相加,再一起更新,因此在三種方式中,數(shù)據(jù)并行對GPU間通信的要求最低。
然而,這種方案要求每個GPU都有足夠內(nèi)存來存儲整個模型的權(quán)重、激活函數(shù)和優(yōu)化器狀態(tài)。像GPT-4這種級別的LLM,參數(shù)規(guī)??梢赃_到1.8萬億,需要占據(jù)10.8TB內(nèi)存,顯然無法全部塞到一個GPU中。
張量并行
為了克服內(nèi)存的限制,就有人提出了張量并行:神經(jīng)網(wǎng)絡(luò)中每一層的權(quán)重和計算都分布在多個GPU上,一般會覆蓋全部隱藏層。在每一層的自注意力、前饋網(wǎng)絡(luò)和層歸一化等操作中,都需要設(shè)備間進行多次歸約。
可以想象成,在每一層的前向計算中,所有GPU都在協(xié)同工作,仿佛組成了一個巨型GPU。
目前在NVLink上通常使用8個張量并行等級,相當(dāng)于每個GPU的內(nèi)存消耗降低到了原來的八分之一。
由于這種方式中設(shè)備間需要頻繁通信,因此要求高帶寬、低延遲的網(wǎng)絡(luò)環(huán)境。
流水線并行
除了張量并行,GPU內(nèi)存不足的另一種解決方案就是流水線并行。
顧名思義,這種方案是將前向計算看成一個流水線,每個GPU負責(zé)其中一環(huán),也就是網(wǎng)絡(luò)中的一層或幾層,完成計算后將結(jié)果傳遞給下一個GPU。
流水線并行對跨設(shè)備通信的要求也很高,但沒有張量并行那么苛刻。
為了最大限度地提高模型FLOP利用率,三種并行模式通常結(jié)合使用,形成3D并行。
張量并行對通信要求最高,因此應(yīng)用于同一服務(wù)器內(nèi)的多個GPU, 再在同一計算島內(nèi)的節(jié)點間使用管道并行。
由于數(shù)據(jù)并行的通信量最小,而且島與島之間的聯(lián)網(wǎng)速度較慢,因此跨計算島時使用數(shù)據(jù)并行。
網(wǎng)絡(luò)設(shè)計
拓撲結(jié)構(gòu)
進行網(wǎng)絡(luò)拓撲設(shè)計時需要同時考慮到所用的并行化方案。
如果采用胖樹拓撲結(jié)構(gòu)(fat-tree topology),每兩個GPU之間都用最大帶寬相連,就需要4層交換,成本十分高昂。
因此,沒有大型GPU集群會部署全胖樹架構(gòu)。取而代之的方案是,制造具有全胖樹架構(gòu)的計算島,同時減少島間的帶寬。
比如,Meta的上一代GPU集群架構(gòu)使用了3.2萬張芯片,總共有8個計算島,島與島之間部署全速帶寬,然后在頂部另加一個7:1的收斂比(oversubscription)的交換層,于是島與島之間的聯(lián)網(wǎng)速度就是島內(nèi)的七分之一。
網(wǎng)絡(luò)設(shè)備部署
GPU部署有多種網(wǎng)絡(luò),包括前端網(wǎng)絡(luò)、后端網(wǎng)絡(luò)和擴展網(wǎng)絡(luò)(NVLink),每個網(wǎng)絡(luò)中運行不同的并行方案。
對于張量并行的帶寬要求而言, NVLink網(wǎng)絡(luò)可能是唯一足夠快的網(wǎng)絡(luò)。后端網(wǎng)絡(luò)通??梢暂p松處理大多數(shù)其他類型的并行,但如果存在「收斂比」,通常只能采用數(shù)據(jù)并行。
此外,有些數(shù)據(jù)中心甚至沒有在頂層設(shè)置「收斂比」帶寬的孤島。相反,他們將后端網(wǎng)絡(luò)遷移到前端網(wǎng)絡(luò)。
一家大型公司利用前端以太網(wǎng)在多個InfiniBand計算島上進行訓(xùn)練。這是因為前端聯(lián)網(wǎng)的成本要低得多,而且可以利用樓宇間現(xiàn)有的數(shù)據(jù)中心園區(qū)網(wǎng)絡(luò)和區(qū)域路由。
遺憾的是,由于采用了MoE等稀疏技術(shù),模型尺寸增長速度加快,前端網(wǎng)絡(luò)需要處理的通信量也隨之增加。
這種權(quán)衡必須仔細優(yōu)化,否則最終會出現(xiàn)兩種方案網(wǎng)絡(luò)成本趨同的情況,因為前端網(wǎng)絡(luò)帶寬最終會增長到與后端網(wǎng)絡(luò)帶寬相匹配的程度。
值得注意的是,谷歌在多TPU pod訓(xùn)練運行中只使用前端網(wǎng)絡(luò)。他們被稱為ICI的「計算結(jié)構(gòu)」最多只能擴展到8960個芯片,每個包含64個TPU的水冷機架之間需要使用昂貴的800G光纖和光路交換機進行連接。
因此,谷歌必須使TPU前端網(wǎng)絡(luò)比大多數(shù)GPU前端網(wǎng)絡(luò)更強大,以彌補這一不足。
在訓(xùn)練過程中使用前端網(wǎng)絡(luò)時,全局歸約操作必須能夠依據(jù)各計算島之間的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。
首先,每個pod或計算島將在內(nèi)部的InfiniBand或ICI網(wǎng)絡(luò)中執(zhí)行局部的規(guī)約-分散操作,使每個GPU/TPU擁有梯度的一部分總和。
接下來,將使用前端以太網(wǎng)絡(luò)在每個主機等級之間執(zhí)行跨pod歸約,最后每個pod將執(zhí)行pod級全收集。
前端網(wǎng)絡(luò)還負責(zé)加載數(shù)據(jù)。隨著多模態(tài)圖像和視頻訓(xùn)練數(shù)據(jù)的發(fā)展,對前端網(wǎng)絡(luò)的要求將呈指數(shù)級增長。
在這種情況下,加載大型視頻文件和歸約這兩種操作之間將爭奪前端網(wǎng)絡(luò)帶寬。
此外,由于存儲網(wǎng)絡(luò)流量不規(guī)則,會導(dǎo)致整個歸約過程變慢,無法進行預(yù)測建模,從而增加了滯后問題。
另一種方法是使用4層InfiniBand網(wǎng)絡(luò), 采用 7:1的收斂比,4個pod, 每個pod有24576個H100,采用無阻塞3層系統(tǒng)。
與使用前端網(wǎng)絡(luò)相比,這為將來增加帶寬提供了更大的靈活性,因為與升級集群中每個機箱的前端網(wǎng)絡(luò)網(wǎng)卡相比,在兩個大樓的交換機之間添加更多光纖收發(fā)器要容易得多。
這樣可以創(chuàng)建一個更穩(wěn)定的網(wǎng)絡(luò)模式,因為前端網(wǎng)絡(luò)可以只專注于加載數(shù)據(jù)和檢查點,而后端網(wǎng)絡(luò)可以只專注于GPU間通信。但遺憾的是,由于需要額外的交換機和收發(fā)器,4層Infiniband網(wǎng)絡(luò)非常昂貴。
軌道優(yōu)化與中間架
為了提高可維護性并增加銅纜網(wǎng)絡(luò)(<3米)和多模網(wǎng)絡(luò)(<50米)的使用,一些客戶選擇放棄英偉達推薦的軌道優(yōu)化設(shè)計(rail optimized design),轉(zhuǎn)而采用中間架設(shè)計(Middle of Rack design)。
軌道優(yōu)化是一種技術(shù),可讓每臺H100服務(wù)器連接到8個不同的葉交換機(而不是全部連接到同一個機架中的交換機),這樣每個GPU只需跳一次交換機就能與更遠的GPU通信,提高全對全集體通信(all-to-all collective communication)性能。
比如在混合專家(MoE)并行中,就大量使用了全對全集體通信。
軌道優(yōu)化設(shè)計的缺點則是,必須連接到不同距離的不同葉交換機,而不是將一個機架中間的交換機靠近服務(wù)器中的所有8個GPU。
當(dāng)交換機位于同一機架時,可以使用無源直連電纜(DAC)和有源電纜(AEC),但在軌道優(yōu)化設(shè)計中,交換機不一定位于同一機架,因此必須使用光學(xué)器件。
此外,葉交換機到骨架交換機的距離可能大于50米,因此必須使用單模光收發(fā)器。
如果采用非軌道優(yōu)化設(shè)計,則可以用廉價的直連銅纜取代連接GPU和葉交換機的98304個光纖收發(fā)器,從而使您 GPU鏈路中銅纜占比達到 25-33% 。
從下面的機架圖中可以看到,每個GPU與板上交換機的連接不再是先連接到電纜托架,然后再從側(cè)面穿過9個機架連接到專用的軌道優(yōu)化板上的交換機機架,而是將板上交換機放在機架中間,讓每個GPU都能使用DAC銅纜。
與光纜相比, DAC銅纜運行溫度更低、耗電更少、成本更低,且可靠性更高,因此這種設(shè)計就減少了網(wǎng)絡(luò)鏈路間歇性癱瘓和故障,而這正是所有使用光學(xué)器件的高速互連所面臨的主要問題。
在使用DAC銅纜時,Quantum-2IB骨架交換機的耗電量為747瓦。使用多模光纖收發(fā)器時,功耗會增加到1500瓦。
此外,軌道優(yōu)化設(shè)計的初始布線對于數(shù)據(jù)中心技術(shù)人員來說非常耗時,因為每個鏈路的兩端距離長達50米,而且不在同一個機架上。
而在中間機架設(shè)計中,葉交換機與連接到葉交換機的所有GPU位于同一機架上,甚至設(shè)計完成之前,可以在集成工廠測試計算節(jié)點到葉交換機的鏈路,因為所有鏈路都在同一個機架上。
可靠性與恢復(fù)
由于當(dāng)前的模型訓(xùn)練都是同步進行,可靠性就成為了巨型集群最重要的運行問題之一。最常見的可靠性問題包括GPU HBM ECC錯誤、GPU驅(qū)動器卡死、光纖收發(fā)器故障、網(wǎng)卡過熱等。
為了保持較短的平均故障恢復(fù)時間,數(shù)據(jù)中心必須在現(xiàn)場保留熱備用節(jié)點和冷備用組件。發(fā)生故障時,最好的辦法不是直接停止訓(xùn)練,而是換上已經(jīng)開啟的備用節(jié)點繼續(xù)訓(xùn)練。
事實上,大部分服務(wù)器宕機的情況都可以通過重啟修復(fù),但有些時候則需要技術(shù)人員對設(shè)備進行現(xiàn)場診斷和更換。
在最好的情況下,數(shù)據(jù)中心技術(shù)人員只需幾個小時就能修復(fù)損壞的GPU服務(wù)器,但很多情況下,損壞的節(jié)點可能需要幾天時間才能重新投入使用。
在訓(xùn)練模型時,需要經(jīng)常將檢查點存儲到到CPU內(nèi)存或NAND SSD, 以防出現(xiàn)HBM ECC等錯誤。發(fā)生錯誤時,必須重新加載模型和優(yōu)化器的權(quán)重,再繼續(xù)訓(xùn)練。
容錯訓(xùn)練技術(shù)(如Oobleck))可用于提供用戶級應(yīng)用驅(qū)動方法,以處理GPU和網(wǎng)絡(luò)故障。
遺憾的是,頻繁地備份檢查點和容錯訓(xùn)練技術(shù)會損害系統(tǒng)的整體MFU,因為集群需要不斷暫停,將當(dāng)前權(quán)重保存到持久內(nèi)存或CPU內(nèi)存中。
此外,通常每100次迭代才保存一次檢查點,這意味著每次重新加載時你最多會丟失99步有用的工作。在一個10萬卡集群上,如果每次迭代耗時2秒,那么在第99次迭代失敗時,最多會損失229個GPU日的工作。
故障恢復(fù)的另一種方法是讓備用節(jié)點通過后端結(jié)構(gòu)從其他GPU進行 RDMA復(fù)制。后端GPU的速度約為400Gbps, 每個 GPU有80GB的HBM內(nèi)存,因此復(fù)制權(quán)重大約需要1.6秒。
采用這種方法,最多只能損失1個步驟(因為更多GPU HBM將擁有最新的權(quán)重副本),因此只需2.3個GPU日的計算時間,再加上從其他GPU HBM內(nèi)存RDMA復(fù)制權(quán)重的1.85個GPU日。
大多數(shù)領(lǐng)先的人工智能實驗室都采用了這一技術(shù),但許多小型公司仍堅持使用繁重、緩慢、低效的技術(shù),即從檢查點重新啟動處理所有故障。通過內(nèi)存重構(gòu)實現(xiàn)故障恢復(fù)可為大型訓(xùn)練運行的MFU提升好幾個百分點。
網(wǎng)絡(luò)故障方面,最常見問題之一是Infiniband/RoCE鏈路故障。由于收發(fā)器數(shù)量較多,即使每個網(wǎng)卡到最底層交換機鏈路的平均故障率為5年,在一個全新的、正常運行的集群上發(fā)生第一次作業(yè)故障也只需要26.28分鐘。
如果不通過內(nèi)存重建進行故障恢復(fù),那么在10萬卡的GPU集群中,由于光纖故障而重新啟動運行所花費的時間,將比模型實質(zhì)進行計算所花費的時間更多。
由于每個GPU都直接連接到ConnectX-7網(wǎng)卡(通過PCIe交換機),在網(wǎng)絡(luò)架構(gòu)層面沒有容錯能力,因此故障必須在用戶訓(xùn)練代碼中處理,增加了代碼庫的復(fù)雜性。
這是當(dāng)前英偉達和AMD的GPU網(wǎng)絡(luò)結(jié)構(gòu)的主要挑戰(zhàn)之一,即使一個網(wǎng)卡故障,該GPU無法與其他GPU通信。
由于大語言模型(LLM)在節(jié)點內(nèi)使用張量并行,如果一個網(wǎng)卡、一個收發(fā)器或一個GPU故障,整個服務(wù)器就會宕機。
目前有很多工作正在進行,以使網(wǎng)絡(luò)可重配置,減少節(jié)點的脆弱性。這項工作至關(guān)重要,因為現(xiàn)狀意味著整個GB200 NVL72僅因一個GPU或光學(xué)故障就會宕機。
顯然,一個價值數(shù)百萬美元的72 GPU機架宕機比一個價值幾十萬美元的8 GPU服務(wù)器宕機更具災(zāi)難性。
英偉達已經(jīng)注意到這個重大問題,并增加了一個專用的RAS(可靠性、可用性和可維護性)引擎。
其中,RAS引擎通過分析芯片級數(shù)據(jù),如溫度、恢復(fù)的ECC重試次數(shù)、時鐘速度、電壓等指標(biāo),來預(yù)測芯片可能的故障并提醒數(shù)據(jù)中心技術(shù)人員。
這將使技術(shù)人員能夠進行主動維護,例如使用更高的風(fēng)扇速度配置來保持可靠性,并在以后的維護窗口期中將服務(wù)器從運行隊列中撤出進行進一步的物理檢查。
此外,在開始訓(xùn)練任務(wù)之前,每個芯片的RAS引擎將執(zhí)行全面的自檢,例如運行已知結(jié)果的矩陣乘法以檢測靜默數(shù)據(jù)損壞(SDC)。
成本優(yōu)化
Cedar-7
一些客戶如微軟和OpenAI正在使用Cedar Fever-7網(wǎng)絡(luò)模塊,而不是8個PCIe形式的ConnectX-7網(wǎng)絡(luò)卡。
使用Cedar Fever模塊的主要好處是,它僅需4個OSFP插槽而非8個,并允許在計算節(jié)點端使用雙端口2x400G收發(fā)器。
這將每個H100節(jié)點連接到葉交換機的收發(fā)器數(shù)量從8個減少到4個;計算節(jié)點端連接GPU到葉交換機的收發(fā)器總數(shù)從98304減少到49152。
由于GPU到葉交換機的鏈接減少了一半,這也有助于延長首次作業(yè)失敗的時間。
根據(jù)估計,每個雙端口2x400G鏈接的平均故障時間為4年(相比單端口400G鏈接的5年),這將使首次作業(yè)失敗的估計時間從26.28分鐘延長至42.05分鐘。
Spectrum-X
InfiniBand的優(yōu)勢在于,以太網(wǎng)并不支持SHARP網(wǎng)絡(luò)內(nèi)縮減。
而SHARP能將每個GPU需要進行的發(fā)送和寫入次數(shù)減少2倍,因此它的理論網(wǎng)絡(luò)帶寬也增加了2倍。
但InfiniBand NDR Quantum-2交換機只有64個400G端口,而每個Spectrum-X以太網(wǎng)的SN5600交換機有128個400G端口,Broadcom的Tomahawk 5交換機ASIC也支持128個400G端口。
由于Quantum-2交換機的端口容量較低,在一個擁有10萬節(jié)點的集群中,完全互聯(lián)的GPU數(shù)量最多只能達到65,536個H100。
不過,下一代InfiniBand交換機——Quantum-X800,將通過144個800G端口解決這個問題,但從「144」這個數(shù)字可以看出,這是為NVL72和NVL36系統(tǒng)設(shè)計的,不太可能在B200或B100集群中廣泛使用。
Spectrum-X的主要優(yōu)勢在于其得到了NVIDIA庫如NCCL的一級支持——老黃會將你推到他們新產(chǎn)品線的首批客戶隊列中。
相比之下,如果你使用的是Tomahawk 5芯片,就需要大量的內(nèi)部工程努力來優(yōu)化網(wǎng)絡(luò)以實現(xiàn)最大吞吐量。
然而,如果采用Spectrum-X,就必須加價購買Nvidia LinkX產(chǎn)品線中的收發(fā)器,因為其他收發(fā)器可能無法正常工作或者通不過英偉達的驗證。
此外,英偉達在第一代400G Spectrum-X中,使用了Bluefield-3來代替ConnectX-7作為臨時解決方案。(ConnectX-8預(yù)計能夠與800G Spectrum-X完美配合)
在超大規(guī)模的數(shù)據(jù)中心中,Bluefield-3和ConnectX-7的價格差異約為300美元ASP,但前者要多耗電50瓦。因此,每個節(jié)點需要額外的400瓦功率,降低了整體訓(xùn)練服務(wù)器的「每皮焦?fàn)栔悄芏取埂?/span>
現(xiàn)在,將Spectrum-X放入數(shù)據(jù)中心需要額外的5MW功率來部署10萬個GPU,而使用相同網(wǎng)絡(luò)架構(gòu)的Broadcom Tomahawk 5則不需要。
Tomahawk 5
為了避免給英偉達支付高昂的費用,許多客戶選擇部署基于Broadcom Tomahawk 5的交換機。
每個基于Tomahawk 5的交換機與Spectrum-X SN5600交換機一樣,擁有128個400G端口,如果公司有優(yōu)秀的網(wǎng)絡(luò)工程師,可以實現(xiàn)類似的性能。此外,你可以從任何供應(yīng)商購買通用的收發(fā)器和銅纜,并進行混合使用。
大多數(shù)客戶直接與ODM合作,如Celestica的交換機,以及與Innolight和Eoptolink的收發(fā)器。
基于交換機和通用收發(fā)器的成本,Tomahawk 5相比Nvidia InfiniBand便宜得多,相比Nvidia Spectrum-X也更具成本效益。
不幸的是,你需要足夠的工程能力來為Tomahawk 5修補和優(yōu)化NCCL通信集群。畢竟,雖然后者開箱即用,但僅針對Nvidia Spectrum-X和Nvidia InfiniBand進行了優(yōu)化。
好消息是,如果你有40億美元用于10萬個集群,就應(yīng)該也有足夠的工程能力來修補NCCL并進行優(yōu)化。
當(dāng)然,軟件開發(fā)是困難的,但Semianalysis認為,每個超大規(guī)模數(shù)據(jù)中心都會進行這些優(yōu)化并拋棄InfiniBand。
物料清單
每10萬個H100集群的總資本支出約為40億美元,但具體金額會因所選擇的網(wǎng)絡(luò)類型而有所不同。
具體來說,可以分為四種:
1. 4層InfiniBand網(wǎng)絡(luò),包含32,768個GPU集群,軌道優(yōu)化,7:1收斂比
2. 3層Spectrum X網(wǎng)絡(luò),包含32,768個GPU集群,軌道優(yōu)化,7:1收斂比
3. 3層InfiniBand網(wǎng)絡(luò),包含24,576個GPU集群,非軌道優(yōu)化,用于前端網(wǎng)絡(luò)的集群間連接
4. 3層Broadcom Tomahawk 5以太網(wǎng)網(wǎng)絡(luò),包含32,768個GPU集群,軌道優(yōu)化,7:1收斂比
可以看到,選項1比其他選項貴了1.3到1.6倍;選項2雖然提供了更大的集群、更高的集群間帶寬和相似的成本,但需要更多的電力;而選項3則會嚴(yán)重降低并行方案的靈活性。
綜上,基于Broadcom Tomahawk 5的32k集群,搭配7:1的收斂比是最具成本效益的選項,這也是多家公司選擇構(gòu)建類似網(wǎng)絡(luò)的原因。
平面布局
最后,在集群的設(shè)計上,還需要優(yōu)化機架布局。
從圖中可以看到,有些行的葉交換機并不在同一排,這其實是為了優(yōu)化使用50米多模光纖。
因為如果將多模收發(fā)器放在行的末端,中間的主干交換機將超出距離范圍。
在這個微軟開發(fā)集群中,每個機架支持高達40kW的功率密度,每個機架容納四個H100節(jié)點。
目前,這個擁有10萬個節(jié)點的集群的4棟建筑中,有3棟已經(jīng)建成
而從H100服務(wù)器到葉交換機的連接則使用多模AOC光纖,通過藍色電纜識別。
展望未來,隨著博通幾乎主導(dǎo)了所有超大規(guī)模集群,他們的網(wǎng)絡(luò)收入將繼續(xù)飆升。
與此同時,由于眾多新興云服務(wù)和企業(yè)傾向于選擇英偉達的參考設(shè)計,這家巨頭在網(wǎng)絡(luò)方面也將繼續(xù)增長。
發(fā)表評論