中文亚洲成A人片在线观看,亚洲欧美日韩综合国产

【管家婆最準(zhǔn)一肖一碼精準(zhǔn)資料】

【2024澳門資料正版詩象網(wǎng)址】

【新澳門六開獎歷史結(jié)果查詢】

【奧門馬今晚開獎免費查詢】

【老板給員工發(fā)8000萬紅包】

【2024年香港免費精準(zhǔn)資料】

【澳門2024平馬計算公式】

【六臺彩圖庫大全】

【最快開獎香港直播網(wǎng)站在線觀看】

【澳門免費資料大全精版澳門2024資料大全2024澳門正版資料】

【2013年香港全年資料大全】

【香港王中王7777788888精準(zhǔn)新傳真】

【澳門資料溴門一肖一碼100準(zhǔn)免費】

【澳門鳳凰特馬藝術(shù)】

【本港臺手機報碼現(xiàn)場報碼】

【2024澳門資料管家婆正全】

【新澳門開獎記錄開獎結(jié)果2024查詢】

【香港王中王777778888王中王最新】

【澳彩全年歷史圖庫49853bC0】

【98322萬眾堂最快開獎】

【2024年資料免費最簡單處理】

【香港管家婆馬會開獎直播】

【澳門小魚兒2站494949】

【澳門一碼一肖一特一碼】

【香港一肖中特期期準(zhǔn)選料1fjLe】

??新智元報道??

編輯：喬楊好困

【新智元導(dǎo)讀】在英偉達市值猛漲、各家科技巨頭囤芯片的熱潮中，我們往往會忽視GPU芯片是如何轉(zhuǎn)變?yōu)閿?shù)據(jù)中心算力的。最近，一篇SemiAnalysis的技術(shù)文章就深入解讀了10萬卡H100集群的構(gòu)建過程。

如火如荼的AI競爭中，「算力之戰(zhàn)」同樣熱火朝天。

包括但不限于OpenAI、微軟、xAI和Meta在內(nèi)的多個頭部公司都在爭相建立超過10萬卡的GPU集群，在這個規(guī)模上，僅僅是服務(wù)器的成本就超過40億美元，還要受到數(shù)據(jù)中心容量和電力不足等多項因素的限制。

我們可以做一個簡單的估算，一個10萬卡集群每年耗電量約為1.59太瓦時（terawatt·h，即10e9千瓦時），按照美國電力的標(biāo)準(zhǔn)費率0.78美元/千瓦時，每年的用電成本就達到了1.24億美元。

為了說明10萬個GPU集群的強大計算能力，OpenAI在訓(xùn)練GPT-4時使用了大約2.15e25 BF16 FLOP（21.5百萬億ExaFLOP），在大約2萬個A100上進行了90到100天的訓(xùn)練，峰值吞吐量只有6.28 ExaFLOPS。

若使用10萬個H100代替A100，峰值將飆升至198/99 FP8/FP16 ExaFLOPS，增加了31.5倍。

在H100上，AI實驗室在訓(xùn)練萬億參數(shù)模型時，F(xiàn)P8模型FLOP利用率（MFU）最高可達35%，F(xiàn)P16 MFU則為40%。

MFU全稱為model full utilization，是衡量潛在FLOP的有效吞吐量和利用率峰值的指標(biāo)，考慮了功率限制、通信不穩(wěn)定、重新計算、滯后和低效內(nèi)核等各種瓶頸。

使用FP8，一個10萬卡H100的集群只需4天就能訓(xùn)練GPT-4。如果進行100天的訓(xùn)練，你可以實現(xiàn)大約6e26（600百萬億ExaFLOP）的有效FP8 FLOP。不過，硬件的低可靠性會顯著降低MFU。

很多人認為，AI的三大基礎(chǔ)設(shè)施：數(shù)據(jù)、算法、算力中，門檻最低的就是算力。只要有錢有資源，買到足夠多的芯片，算力短缺就不是問題。

但是，SemiAnalysis最近的一篇文章指出，事實絕非如此。構(gòu)建算力集群，絕對比一擲千金要復(fù)雜得多。

GPT-4發(fā)布以來，似乎還沒有出現(xiàn)下一代能力更強的LLM，很重要的原因就是幾乎沒有組織能夠大規(guī)模增加專用于單個模型的計算量。

Gemini Ultra、Nemotron 340B和Llama 3這些模型與GPT-4的訓(xùn)練計算量相近（約為2e25 FLOP），甚至更高，但使用了較差的集群架構(gòu)，導(dǎo)致它們無法進一步釋放能力。

那么，在巨頭們部署10萬卡GPU集群的過程中，究竟面臨哪些障礙？

電力挑戰(zhàn)

10萬卡集群所需的關(guān)鍵IT部件的總功率約為150MW，相比之下，美國最大的國家實驗室超算El Capitan的關(guān)鍵IT功率只有30MW，約為五分之一，可謂是相形見絀。

在如此龐大的功率中，GPU本身的耗電實際上只有不到一半。

根據(jù)官方參數(shù)，每張H100的功率為700W，但服務(wù)器上還有CPU、網(wǎng)卡（NIC）、供電單元（power supply unit）等設(shè)備，功率約為575W。

除了H100服務(wù)器，集群中還需要部署一系列的存儲服務(wù)器、網(wǎng)絡(luò)交換機、CPU節(jié)點、光纖收發(fā)器和許多其他設(shè)備，約占IT功耗的10%。

目前沒有任何一座數(shù)據(jù)中心的大樓有能力部署150MW功率的設(shè)備。因此，已建成的10萬GPU集群通常是分布在一整個園區(qū)中，而非單座大樓。

由于可用的數(shù)據(jù)中心有限，xAI甚至選擇將田納西州孟菲斯的一家舊工廠改造為數(shù)據(jù)中心。

因為服務(wù)器分布在整個園區(qū)而非單棟大樓內(nèi)，聯(lián)網(wǎng)成本就會無形增高，因為光纖收發(fā)器的成本與傳輸距離成正比。

「多?！筍R和AOC收發(fā)器僅支持最長約50m的傳輸距離，顯然不可用。長距離「單?！笵R和FR收發(fā)器能可靠地在500m～2km范圍內(nèi)傳輸信號，但成本是前者的2.5倍。

此外，園區(qū)級別的800相干光收發(fā)器的傳輸距離可以超過2km，但價格更貴，要高出10倍以上。

H100的小型集群通常只使用多模收發(fā)器，通過一層或兩層的交換機，以400G的速度將每個GPU連接在一起。如果是大型集群，則需要增加更多層的交換機，光纖設(shè)備也會極其昂貴。

在大型集群的園區(qū)中，每棟大樓包含一個或多個pod，由多模收發(fā)器（或者較為廉價的銅纜）相連，形成一個「計算島」。每個計算島之間再通過長距離收發(fā)器互連，島內(nèi)帶寬較高，島間帶寬較低。

并行化方案

數(shù)據(jù)并行

在較大參數(shù)的訓(xùn)練中，一般有3種不同類型的并行化——數(shù)據(jù)并行（data parallelism）、張量并行（tensor parallelism）與流水線并行（pipeline parallelism）。

數(shù)據(jù)并行是其中最簡單的并行方式：每個GPU擁有模型權(quán)重的全部副本，并分別保存一部分?jǐn)?shù)據(jù)。

前向計算過程中每個GPU獨自工作，梯度更新時將所有GPU計算出的梯度相加，再一起更新，因此在三種方式中，數(shù)據(jù)并行對GPU間通信的要求最低。

然而，這種方案要求每個GPU都有足夠內(nèi)存來存儲整個模型的權(quán)重、激活函數(shù)和優(yōu)化器狀態(tài)。像GPT-4這種級別的LLM，參數(shù)規(guī)?？梢赃_到1.8萬億，需要占據(jù)10.8TB內(nèi)存，顯然無法全部塞到一個GPU中。

張量并行

為了克服內(nèi)存的限制，就有人提出了張量并行：神經(jīng)網(wǎng)絡(luò)中每一層的權(quán)重和計算都分布在多個GPU上，一般會覆蓋全部隱藏層。在每一層的自注意力、前饋網(wǎng)絡(luò)和層歸一化等操作中，都需要設(shè)備間進行多次歸約。

可以想象成，在每一層的前向計算中，所有GPU都在協(xié)同工作，仿佛組成了一個巨型GPU。

目前在NVLink上通常使用8個張量并行等級，相當(dāng)于每個GPU的內(nèi)存消耗降低到了原來的八分之一。

由于這種方式中設(shè)備間需要頻繁通信，因此要求高帶寬、低延遲的網(wǎng)絡(luò)環(huán)境。

流水線并行

除了張量并行，GPU內(nèi)存不足的另一種解決方案就是流水線并行。

顧名思義，這種方案是將前向計算看成一個流水線，每個GPU負責(zé)其中一環(huán)，也就是網(wǎng)絡(luò)中的一層或幾層，完成計算后將結(jié)果傳遞給下一個GPU。

流水線并行對跨設(shè)備通信的要求也很高，但沒有張量并行那么苛刻。

為了最大限度地提高模型FLOP利用率，三種并行模式通常結(jié)合使用，形成3D并行。

張量并行對通信要求最高，因此應(yīng)用于同一服務(wù)器內(nèi)的多個GPU，再在同一計算島內(nèi)的節(jié)點間使用管道并行。

由于數(shù)據(jù)并行的通信量最小，而且島與島之間的聯(lián)網(wǎng)速度較慢，因此跨計算島時使用數(shù)據(jù)并行。

網(wǎng)絡(luò)設(shè)計

拓撲結(jié)構(gòu)

進行網(wǎng)絡(luò)拓撲設(shè)計時需要同時考慮到所用的并行化方案。

如果采用胖樹拓撲結(jié)構(gòu)（fat-tree topology），每兩個GPU之間都用最大帶寬相連，就需要4層交換，成本十分高昂。

論文《Adaptive Load Balancing Scheme For Data Center Networks Using Software Defined Network》

因此，沒有大型GPU集群會部署全胖樹架構(gòu)。取而代之的方案是，制造具有全胖樹架構(gòu)的計算島，同時減少島間的帶寬。

比如，Meta的上一代GPU集群架構(gòu)使用了3.2萬張芯片，總共有8個計算島，島與島之間部署全速帶寬，然后在頂部另加一個7:1的收斂比（oversubscription）的交換層，于是島與島之間的聯(lián)網(wǎng)速度就是島內(nèi)的七分之一。

網(wǎng)絡(luò)設(shè)備部署

GPU部署有多種網(wǎng)絡(luò)，包括前端網(wǎng)絡(luò)、后端網(wǎng)絡(luò)和擴展網(wǎng)絡(luò)（NVLink），每個網(wǎng)絡(luò)中運行不同的并行方案。

對于張量并行的帶寬要求而言， NVLink網(wǎng)絡(luò)可能是唯一足夠快的網(wǎng)絡(luò)。后端網(wǎng)絡(luò)通?？梢暂p松處理大多數(shù)其他類型的并行，但如果存在「收斂比」，通常只能采用數(shù)據(jù)并行。

此外，有些數(shù)據(jù)中心甚至沒有在頂層設(shè)置「收斂比」帶寬的孤島。相反，他們將后端網(wǎng)絡(luò)遷移到前端網(wǎng)絡(luò)。

一家大型公司利用前端以太網(wǎng)在多個InfiniBand計算島上進行訓(xùn)練。這是因為前端聯(lián)網(wǎng)的成本要低得多，而且可以利用樓宇間現(xiàn)有的數(shù)據(jù)中心園區(qū)網(wǎng)絡(luò)和區(qū)域路由。

遺憾的是，由于采用了MoE等稀疏技術(shù)，模型尺寸增長速度加快，前端網(wǎng)絡(luò)需要處理的通信量也隨之增加。

這種權(quán)衡必須仔細優(yōu)化，否則最終會出現(xiàn)兩種方案網(wǎng)絡(luò)成本趨同的情況，因為前端網(wǎng)絡(luò)帶寬最終會增長到與后端網(wǎng)絡(luò)帶寬相匹配的程度。

值得注意的是，谷歌在多TPU pod訓(xùn)練運行中只使用前端網(wǎng)絡(luò)。他們被稱為ICI的「計算結(jié)構(gòu)」最多只能擴展到8960個芯片，每個包含64個TPU的水冷機架之間需要使用昂貴的800G光纖和光路交換機進行連接。

因此，谷歌必須使TPU前端網(wǎng)絡(luò)比大多數(shù)GPU前端網(wǎng)絡(luò)更強大，以彌補這一不足。

在訓(xùn)練過程中使用前端網(wǎng)絡(luò)時，全局歸約操作必須能夠依據(jù)各計算島之間的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。

首先，每個pod或計算島將在內(nèi)部的InfiniBand或ICI網(wǎng)絡(luò)中執(zhí)行局部的規(guī)約-分散操作，使每個GPU/TPU擁有梯度的一部分總和。

接下來，將使用前端以太網(wǎng)絡(luò)在每個主機等級之間執(zhí)行跨pod歸約，最后每個pod將執(zhí)行pod級全收集。

前端網(wǎng)絡(luò)還負責(zé)加載數(shù)據(jù)。隨著多模態(tài)圖像和視頻訓(xùn)練數(shù)據(jù)的發(fā)展，對前端網(wǎng)絡(luò)的要求將呈指數(shù)級增長。

在這種情況下，加載大型視頻文件和歸約這兩種操作之間將爭奪前端網(wǎng)絡(luò)帶寬。

此外，由于存儲網(wǎng)絡(luò)流量不規(guī)則，會導(dǎo)致整個歸約過程變慢，無法進行預(yù)測建模，從而增加了滯后問題。

另一種方法是使用4層InfiniBand網(wǎng)絡(luò)，采用 7:1的收斂比，4個pod，每個pod有24576個H100，采用無阻塞3層系統(tǒng)。

與使用前端網(wǎng)絡(luò)相比，這為將來增加帶寬提供了更大的靈活性，因為與升級集群中每個機箱的前端網(wǎng)絡(luò)網(wǎng)卡相比，在兩個大樓的交換機之間添加更多光纖收發(fā)器要容易得多。

這樣可以創(chuàng)建一個更穩(wěn)定的網(wǎng)絡(luò)模式，因為前端網(wǎng)絡(luò)可以只專注于加載數(shù)據(jù)和檢查點，而后端網(wǎng)絡(luò)可以只專注于GPU間通信。但遺憾的是，由于需要額外的交換機和收發(fā)器，4層Infiniband網(wǎng)絡(luò)非常昂貴。

軌道優(yōu)化與中間架

為了提高可維護性并增加銅纜網(wǎng)絡(luò)（<3米）和多模網(wǎng)絡(luò)（<50米）的使用，一些客戶選擇放棄英偉達推薦的軌道優(yōu)化設(shè)計（rail optimized design），轉(zhuǎn)而采用中間架設(shè)計（Middle of Rack design）。

軌道優(yōu)化是一種技術(shù)，可讓每臺H100服務(wù)器連接到8個不同的葉交換機（而不是全部連接到同一個機架中的交換機），這樣每個GPU只需跳一次交換機就能與更遠的GPU通信,提高全對全集體通信（all-to-all collective communication）性能。

比如在混合專家（MoE）并行中，就大量使用了全對全集體通信。

軌道優(yōu)化設(shè)計的缺點則是，必須連接到不同距離的不同葉交換機，而不是將一個機架中間的交換機靠近服務(wù)器中的所有8個GPU。

當(dāng)交換機位于同一機架時，可以使用無源直連電纜（DAC）和有源電纜（AEC），但在軌道優(yōu)化設(shè)計中，交換機不一定位于同一機架，因此必須使用光學(xué)器件。

此外，葉交換機到骨架交換機的距離可能大于50米，因此必須使用單模光收發(fā)器。

如果采用非軌道優(yōu)化設(shè)計，則可以用廉價的直連銅纜取代連接GPU和葉交換機的98304個光纖收發(fā)器，從而使您 GPU鏈路中銅纜占比達到 25-33% 。

從下面的機架圖中可以看到，每個GPU與板上交換機的連接不再是先連接到電纜托架，然后再從側(cè)面穿過9個機架連接到專用的軌道優(yōu)化板上的交換機機架，而是將板上交換機放在機架中間，讓每個GPU都能使用DAC銅纜。

與光纜相比， DAC銅纜運行溫度更低、耗電更少、成本更低，且可靠性更高，因此這種設(shè)計就減少了網(wǎng)絡(luò)鏈路間歇性癱瘓和故障，而這正是所有使用光學(xué)器件的高速互連所面臨的主要問題。

在使用DAC銅纜時，Quantum-2IB骨架交換機的耗電量為747瓦。使用多模光纖收發(fā)器時，功耗會增加到1500瓦。

此外，軌道優(yōu)化設(shè)計的初始布線對于數(shù)據(jù)中心技術(shù)人員來說非常耗時，因為每個鏈路的兩端距離長達50米，而且不在同一個機架上。

而在中間機架設(shè)計中，葉交換機與連接到葉交換機的所有GPU位于同一機架上，甚至設(shè)計完成之前，可以在集成工廠測試計算節(jié)點到葉交換機的鏈路，因為所有鏈路都在同一個機架上。

可靠性與恢復(fù)

由于當(dāng)前的模型訓(xùn)練都是同步進行，可靠性就成為了巨型集群最重要的運行問題之一。最常見的可靠性問題包括GPU HBM ECC錯誤、GPU驅(qū)動器卡死、光纖收發(fā)器故障、網(wǎng)卡過熱等。

為了保持較短的平均故障恢復(fù)時間，數(shù)據(jù)中心必須在現(xiàn)場保留熱備用節(jié)點和冷備用組件。發(fā)生故障時，最好的辦法不是直接停止訓(xùn)練，而是換上已經(jīng)開啟的備用節(jié)點繼續(xù)訓(xùn)練。

事實上，大部分服務(wù)器宕機的情況都可以通過重啟修復(fù)，但有些時候則需要技術(shù)人員對設(shè)備進行現(xiàn)場診斷和更換。

在最好的情況下，數(shù)據(jù)中心技術(shù)人員只需幾個小時就能修復(fù)損壞的GPU服務(wù)器，但很多情況下，損壞的節(jié)點可能需要幾天時間才能重新投入使用。

在訓(xùn)練模型時，需要經(jīng)常將檢查點存儲到到CPU內(nèi)存或NAND SSD，以防出現(xiàn)HBM ECC等錯誤。發(fā)生錯誤時，必須重新加載模型和優(yōu)化器的權(quán)重，再繼續(xù)訓(xùn)練。

容錯訓(xùn)練技術(shù)（如Oobleck））可用于提供用戶級應(yīng)用驅(qū)動方法，以處理GPU和網(wǎng)絡(luò)故障。

遺憾的是，頻繁地備份檢查點和容錯訓(xùn)練技術(shù)會損害系統(tǒng)的整體MFU，因為集群需要不斷暫停，將當(dāng)前權(quán)重保存到持久內(nèi)存或CPU內(nèi)存中。

此外，通常每100次迭代才保存一次檢查點，這意味著每次重新加載時你最多會丟失99步有用的工作。在一個10萬卡集群上，如果每次迭代耗時2秒，那么在第99次迭代失敗時，最多會損失229個GPU日的工作。

故障恢復(fù)的另一種方法是讓備用節(jié)點通過后端結(jié)構(gòu)從其他GPU進行 RDMA復(fù)制。后端GPU的速度約為400Gbps，每個 GPU有80GB的HBM內(nèi)存，因此復(fù)制權(quán)重大約需要1.6秒。

采用這種方法，最多只能損失1個步驟（因為更多GPU HBM將擁有最新的權(quán)重副本），因此只需2.3個GPU日的計算時間，再加上從其他GPU HBM內(nèi)存RDMA復(fù)制權(quán)重的1.85個GPU日。

大多數(shù)領(lǐng)先的人工智能實驗室都采用了這一技術(shù)，但許多小型公司仍堅持使用繁重、緩慢、低效的技術(shù)，即從檢查點重新啟動處理所有故障。通過內(nèi)存重構(gòu)實現(xiàn)故障恢復(fù)可為大型訓(xùn)練運行的MFU提升好幾個百分點。

網(wǎng)絡(luò)故障方面，最常見問題之一是Infiniband/RoCE鏈路故障。由于收發(fā)器數(shù)量較多，即使每個網(wǎng)卡到最底層交換機鏈路的平均故障率為5年，在一個全新的、正常運行的集群上發(fā)生第一次作業(yè)故障也只需要26.28分鐘。

如果不通過內(nèi)存重建進行故障恢復(fù)，那么在10萬卡的GPU集群中，由于光纖故障而重新啟動運行所花費的時間，將比模型實質(zhì)進行計算所花費的時間更多。

由于每個GPU都直接連接到ConnectX-7網(wǎng)卡（通過PCIe交換機），在網(wǎng)絡(luò)架構(gòu)層面沒有容錯能力，因此故障必須在用戶訓(xùn)練代碼中處理，增加了代碼庫的復(fù)雜性。

這是當(dāng)前英偉達和AMD的GPU網(wǎng)絡(luò)結(jié)構(gòu)的主要挑戰(zhàn)之一，即使一個網(wǎng)卡故障，該GPU無法與其他GPU通信。

由于大語言模型（LLM）在節(jié)點內(nèi)使用張量并行，如果一個網(wǎng)卡、一個收發(fā)器或一個GPU故障，整個服務(wù)器就會宕機。

目前有很多工作正在進行，以使網(wǎng)絡(luò)可重配置，減少節(jié)點的脆弱性。這項工作至關(guān)重要，因為現(xiàn)狀意味著整個GB200 NVL72僅因一個GPU或光學(xué)故障就會宕機。

顯然，一個價值數(shù)百萬美元的72 GPU機架宕機比一個價值幾十萬美元的8 GPU服務(wù)器宕機更具災(zāi)難性。

英偉達已經(jīng)注意到這個重大問題，并增加了一個專用的RAS（可靠性、可用性和可維護性）引擎。

其中，RAS引擎通過分析芯片級數(shù)據(jù)，如溫度、恢復(fù)的ECC重試次數(shù)、時鐘速度、電壓等指標(biāo)，來預(yù)測芯片可能的故障并提醒數(shù)據(jù)中心技術(shù)人員。

這將使技術(shù)人員能夠進行主動維護，例如使用更高的風(fēng)扇速度配置來保持可靠性，并在以后的維護窗口期中將服務(wù)器從運行隊列中撤出進行進一步的物理檢查。

此外，在開始訓(xùn)練任務(wù)之前，每個芯片的RAS引擎將執(zhí)行全面的自檢，例如運行已知結(jié)果的矩陣乘法以檢測靜默數(shù)據(jù)損壞（SDC）。

成本優(yōu)化

Cedar-7

一些客戶如微軟和OpenAI正在使用Cedar Fever-7網(wǎng)絡(luò)模塊，而不是8個PCIe形式的ConnectX-7網(wǎng)絡(luò)卡。

使用Cedar Fever模塊的主要好處是，它僅需4個OSFP插槽而非8個，并允許在計算節(jié)點端使用雙端口2x400G收發(fā)器。

這將每個H100節(jié)點連接到葉交換機的收發(fā)器數(shù)量從8個減少到4個；計算節(jié)點端連接GPU到葉交換機的收發(fā)器總數(shù)從98304減少到49152。

由于GPU到葉交換機的鏈接減少了一半，這也有助于延長首次作業(yè)失敗的時間。

根據(jù)估計，每個雙端口2x400G鏈接的平均故障時間為4年（相比單端口400G鏈接的5年），這將使首次作業(yè)失敗的估計時間從26.28分鐘延長至42.05分鐘。

Spectrum-X

InfiniBand的優(yōu)勢在于，以太網(wǎng)并不支持SHARP網(wǎng)絡(luò)內(nèi)縮減。

而SHARP能將每個GPU需要進行的發(fā)送和寫入次數(shù)減少2倍，因此它的理論網(wǎng)絡(luò)帶寬也增加了2倍。

但InfiniBand NDR Quantum-2交換機只有64個400G端口，而每個Spectrum-X以太網(wǎng)的SN5600交換機有128個400G端口，Broadcom的Tomahawk 5交換機ASIC也支持128個400G端口。

由于Quantum-2交換機的端口容量較低，在一個擁有10萬節(jié)點的集群中，完全互聯(lián)的GPU數(shù)量最多只能達到65,536個H100。

不過，下一代InfiniBand交換機——Quantum-X800，將通過144個800G端口解決這個問題，但從「144」這個數(shù)字可以看出，這是為NVL72和NVL36系統(tǒng)設(shè)計的，不太可能在B200或B100集群中廣泛使用。

Spectrum-X的主要優(yōu)勢在于其得到了NVIDIA庫如NCCL的一級支持——老黃會將你推到他們新產(chǎn)品線的首批客戶隊列中。

相比之下，如果你使用的是Tomahawk 5芯片，就需要大量的內(nèi)部工程努力來優(yōu)化網(wǎng)絡(luò)以實現(xiàn)最大吞吐量。

然而，如果采用Spectrum-X，就必須加價購買Nvidia LinkX產(chǎn)品線中的收發(fā)器，因為其他收發(fā)器可能無法正常工作或者通不過英偉達的驗證。

此外，英偉達在第一代400G Spectrum-X中，使用了Bluefield-3來代替ConnectX-7作為臨時解決方案。（ConnectX-8預(yù)計能夠與800G Spectrum-X完美配合）

在超大規(guī)模的數(shù)據(jù)中心中，Bluefield-3和ConnectX-7的價格差異約為300美元ASP，但前者要多耗電50瓦。因此，每個節(jié)點需要額外的400瓦功率，降低了整體訓(xùn)練服務(wù)器的「每皮焦?fàn)栔悄芏取埂?/span>

現(xiàn)在，將Spectrum-X放入數(shù)據(jù)中心需要額外的5MW功率來部署10萬個GPU，而使用相同網(wǎng)絡(luò)架構(gòu)的Broadcom Tomahawk 5則不需要。

Tomahawk 5

為了避免給英偉達支付高昂的費用，許多客戶選擇部署基于Broadcom Tomahawk 5的交換機。

每個基于Tomahawk 5的交換機與Spectrum-X SN5600交換機一樣，擁有128個400G端口，如果公司有優(yōu)秀的網(wǎng)絡(luò)工程師，可以實現(xiàn)類似的性能。此外，你可以從任何供應(yīng)商購買通用的收發(fā)器和銅纜，并進行混合使用。

大多數(shù)客戶直接與ODM合作，如Celestica的交換機，以及與Innolight和Eoptolink的收發(fā)器。

基于交換機和通用收發(fā)器的成本，Tomahawk 5相比Nvidia InfiniBand便宜得多，相比Nvidia Spectrum-X也更具成本效益。

不幸的是，你需要足夠的工程能力來為Tomahawk 5修補和優(yōu)化NCCL通信集群。畢竟，雖然后者開箱即用，但僅針對Nvidia Spectrum-X和Nvidia InfiniBand進行了優(yōu)化。

好消息是，如果你有40億美元用于10萬個集群，就應(yīng)該也有足夠的工程能力來修補NCCL并進行優(yōu)化。

當(dāng)然，軟件開發(fā)是困難的，但Semianalysis認為，每個超大規(guī)模數(shù)據(jù)中心都會進行這些優(yōu)化并拋棄InfiniBand。

物料清單

每10萬個H100集群的總資本支出約為40億美元，但具體金額會因所選擇的網(wǎng)絡(luò)類型而有所不同。

具體來說，可以分為四種：

1. 4層InfiniBand網(wǎng)絡(luò)，包含32,768個GPU集群，軌道優(yōu)化，7:1收斂比

2. 3層Spectrum X網(wǎng)絡(luò)，包含32,768個GPU集群，軌道優(yōu)化，7:1收斂比

3. 3層InfiniBand網(wǎng)絡(luò)，包含24,576個GPU集群，非軌道優(yōu)化，用于前端網(wǎng)絡(luò)的集群間連接

4. 3層Broadcom Tomahawk 5以太網(wǎng)網(wǎng)絡(luò)，包含32,768個GPU集群，軌道優(yōu)化，7:1收斂比

可以看到，選項1比其他選項貴了1.3到1.6倍；選項2雖然提供了更大的集群、更高的集群間帶寬和相似的成本，但需要更多的電力；而選項3則會嚴(yán)重降低并行方案的靈活性。

綜上，基于Broadcom Tomahawk 5的32k集群，搭配7:1的收斂比是最具成本效益的選項，這也是多家公司選擇構(gòu)建類似網(wǎng)絡(luò)的原因。

平面布局

最后，在集群的設(shè)計上，還需要優(yōu)化機架布局。

從圖中可以看到，有些行的葉交換機并不在同一排，這其實是為了優(yōu)化使用50米多模光纖。

因為如果將多模收發(fā)器放在行的末端，中間的主干交換機將超出距離范圍。

使用軌道優(yōu)化的Spectrum-X / Tomahawk 5的32k集群平面圖

在這個微軟開發(fā)集群中，每個機架支持高達40kW的功率密度，每個機架容納四個H100節(jié)點。

目前，這個擁有10萬個節(jié)點的集群的4棟建筑中，有3棟已經(jīng)建成

而從H100服務(wù)器到葉交換機的連接則使用多模AOC光纖，通過藍色電纜識別。

展望未來，隨著博通幾乎主導(dǎo)了所有超大規(guī)模集群，他們的網(wǎng)絡(luò)收入將繼續(xù)飆升。

與此同時，由于眾多新興云服務(wù)和企業(yè)傾向于選擇英偉達的參考設(shè)計，這家巨頭在網(wǎng)絡(luò)方面也將繼續(xù)增長。

參考資料：

https://www.semianalysis.com/p/100000-h100-clusters-power-network

久久亚洲国产成人精品无码区,影音先锋中文字幕亚洲资源站,久久99久国产麻精品66,久久视频这里只精品99re8久