【澳門金鑰匙12碼資料香港王中王】
【澳門正版資料免費大全2024年金牛版】
【香港最快開獎現(xiàn)場直播+結果開獎記錄】
【澳門四肖八碼期期準免費資料大全】
【金牛網論壇心水資料最新版】
【美人魚-澳門正版免費資料】
【2o24澳門精準管家婆一肖一碼】
【香港管家婆最新彩圖圖庫】
【2024白小姐必中一肖一碼100準】
【49629xom澳彩開獎結果查詢】
【管家婆免2024費期期精準大全】
【2024澳門六開彩免費資料大全】
【王中王資料大全枓大全正攻略】
【新版澳門開彩結果走勢圖】
【香港神算子軟件截圖】
【2O24澳門全年資料大全】
【香港金牛網155755水心論壇】
【管家婆一肖一碼最準全網】
【ok1962小魚兒玄機】
【2024澳門資料大全正版正版資料】
【奧門六開獎號碼2024年開獎結果】
【香港天空彩與你同行開嗎大全】
【2024香港正版資料免費盾】
【香港四不像圖正版資料大全】
【香港最快開獎現(xiàn)場結果開獎記錄WWW開獎號碼】

“芯事重重”是騰訊科技半導體產業(yè)研究策劃,本期聚焦科技公司下場自研AI芯片的邏輯與挑戰(zhàn)。

作者 芯潮IC 阿牛

編輯 蘇揚

“我們的英偉達芯片儲備,已經跟不上了?!币晃籄I大模型企業(yè)CEO坦言。

受出口管制進一步收緊的影響,A800、H800等中國特供版芯片已經很難正常采購,取而代之的是合規(guī)版H20,后者性能大幅縮水,外界也將其稱之為閹割版。即便如此,H20仍然有可能在今年10月份美國商務部出口管制條款更新當中,同樣面臨出口管制。

《金融時報》援引兩位與英偉達關系密切的匿名人士消息稱,多家中國公司向英偉達下單訂購了共50億美元的芯片。與此同時,一些國產芯片進入科技大廠的視野,但由于工藝、互聯(lián)等原因,性能仍有差距,供給也存在挑戰(zhàn)。

在這種背景下,多家大公司下場自研,先后在臺積電流片,覆蓋5nm、7nm等多個工藝節(jié)點,以保證自身AI芯片的供應安全。

出口管制像一把雙刃劍,卡住了算力的脖子,也限制了英偉達的增長,尤其是在客戶自研的背景下,英偉達在大陸的營收開始出現(xiàn)變數(shù)。2022財年,中國客戶為英偉達貢獻了25%的市場營收,而到2024財年,這個比例已下降至個位數(shù)。

對英偉達來說,中國大陸的蛋糕縮水,硅谷也在變天。谷歌、蘋果、Meta、亞馬遜、特斯拉等大客戶都在嘗試兩條腿并行,一邊用著英偉達的芯片,一邊下場自研。

中、美大廠自研芯片的邏輯是什么,涌進紅海的科技公司,靠自研芯片能順利上岸嗎??

01 硬通貨,握在手里才有安全感

大模型和生成式AI熱潮狂卷的當下,算力芯片是科技公司手里的硬通貨,芯潮IC曾在《天價H100流向黑市》一文中跟蹤過這種“搶算力”的瘋狂與緊張。

把牌握在自己手里,是大廠自研芯片的根本原因。

在千芯科技董事長陳巍看來,大廠的底牌有三張:保供、降本和競價,籠統(tǒng)來說是一種芯片自主權。

對很多中國大廠,特別是互聯(lián)網和人工智能大廠來說,在先進芯片出口管制的背景下,隨時面臨算力斷供風險,下場自研是算力安全的保障。不過,各家開發(fā)的芯片主要是內部自用,規(guī)格也是針對自家產品定制設計,并非通用型產品。

對“燒錢”堆算力的巨頭們來說,自研是降本的一條路徑?!绑w量足夠大、需求足夠大,再考慮自研,否則不一定能真的降本?!鼻芭_積電建廠專家吳梓豪說。

2021年,馬斯克推出了由自研AI芯片D1打造的Dojo超級計算機,用以訓練特斯拉的自動駕駛系統(tǒng)。據摩根士丹利最新研報,這套系統(tǒng)比用英偉達的A100,足足省下了65億美元。

隨著AI需求興起,云廠對GPU的依賴性遠遠超過了CPU,對英偉達芯片的需求堪稱瘋狂,自研也是云廠搶英偉達訂單的競價籌碼。

一位接近亞馬遜的人士告訴芯潮IC,英偉達的卡并不便宜,DSA大廠如果手握自研的專用芯片,不但可以充分降低在芯片和專利上的平均成本,面對英偉達也能有更好的議價權。

公開資料顯示,亞馬遜不僅設計自己的計算服務器、存儲服務器、路由器,還研發(fā)了自己的服務器芯片Graviton。

AWS推出通用Graviton4處理器

據The Information報道,亞馬遜通過Graviton替換英偉達來持續(xù)降低價格,客戶租用Graviton服務器,直接節(jié)省了10%~40%的計算成本。站在英偉達的角度,要留住亞馬遜這種全球最大的云廠客戶,就得坐在牌桌上,協(xié)商出一個更好的價格。

“這種讓利,有時候不一定完全反映到折扣上,有可能反映在配置上。”

上述知情人士透露,作為全球頂級的現(xiàn)貨廠商,英偉達如果直接在單價上給予非常直觀的折扣,對產品定價體系的負面影響會很大,不利于產品價格保護,但它們可以通過升級互連設備、升級SSD存儲、增加更多Rack配置等方式,變相給大客戶提供優(yōu)惠。

還有一種更為常見的優(yōu)惠手段——產能傾斜,提供首發(fā)權益。

拿到先發(fā)優(yōu)勢,亞馬遜在短期內可以把整機價格定得更高,從整機溢價和配套軟件工具鏈的流通當中,把(折扣)錢“省”出來。

保供、降本和競價之外,有些大廠自研芯片更多是想要保證自身獨特的競爭力。

風云學會副會長陳經提到,英偉達賣的芯片適用于通用計算,功能很全但也比較貴,但有些客戶只需要特定的功能來強化自身的某些優(yōu)勢,這種情況下就會考慮自研。

“我只需要做大模型推理,不需要訓練功能,這種情況就可以設計一個功能簡單,但是速度更快,價格便宜的專用芯片,”陳經說?!跋窆雀?、微軟這些大公司,都有自己的軟硬件系統(tǒng)規(guī)范,如何去控制噪音,能耗要到什么級別,英偉達不一定能滿足標準,自己設計會更方便?!?/p>

硅谷巨頭當中,谷歌非常在意自身架構、成本和芯片技術的差異化,從2016年起就自研AI張量處理單元(TPU),以便于在大中型訓練與推理中,獲得更好的成本效益和性能,以保證自己的云計算產品有更好的獨特性和識別度。

谷歌推出第六代TPU“Trillium”

根據谷歌披露的第4代TPU相關數(shù)據,與同等規(guī)模的系統(tǒng)相比,TPU v4的效率比英偉達A100強1.7倍,節(jié)能效率強1.9倍。

除以上幾點外,從生態(tài)角度來看,還有一個更深層的原因——打破CUDA壟斷。作為英偉達研發(fā)的編程語言,CUDA是把GPU價格“炒上天”,而客戶又不得不接受的主要原因。

如果云廠不做自研,即便可以拿到很好的訂單價格,但數(shù)據中心超95%的處理器依然要用英偉達GPU,整個云上AI需求仍要依賴CUDA生態(tài)。說到底,命門還是捏在英偉達手上。

隨著云廠在數(shù)據中心配備自研芯片,同時開發(fā)很多底層中間件和二進制翻譯功能,幫助客戶遷移至自家生態(tài),對CUDA程序的等價兼容程度會更高,獨家的依賴程度會逐漸減輕。

“這是所有的云廠都在做的事,即便處理器在整個數(shù)據中心所占比可能不到4%,但依然要堅持做這個事情?!痹撝槿耸空f。

02 有人、有錢,那就下場吧

“有人、有錢、有事,同時它還有未來的量,那就可以下場了。”

聯(lián)想控股副總裁于浩認為,大廠做芯片自研的邏輯是比較順,它的客戶就在那兒,這是個明確的優(yōu)勢。

“‘人’得是有芯片全生命周期實戰(zhàn)經驗的‘牛人’,‘錢’得是依托算力業(yè)務持續(xù)貢獻收入的‘活錢’,這樣一來,大廠依托AI業(yè)務閉環(huán),盤點未來可預期的市場漲幅,量化算力需求,完成人和錢的戰(zhàn)略統(tǒng)籌,自研芯片水到渠成?!庇诤聘嬖V芯潮IC。

不過,坐上自研這個牌桌,入場費至少20億美元起。今年初,OpenAI CEO山姆·奧特曼甚至傳出了籌資7萬億美元造芯片的瘋狂計劃,盡管后來當事人對這一傳聞給予了否認。

據知情人士透露,“每家迭代第一代產品,如果按7納米中間節(jié)點去算,加量產至少小20億美金?!?/p>

此外,自研芯片更多是自用,可以不考慮建設生態(tài)的難度。燃次元援引天鷹資本合伙人的觀點表示:“專用芯片在架構設計上一般不用特別復雜,應用特性也很明確,開發(fā)相對快速,因而對于很多互聯(lián)網公司來說,他們開發(fā)專用芯片就在于有明確場景,不需要花太多財力和時間去搞定軟件生態(tài),工藝IP也成熟?!?/p>

理論行得通,具體自研這件事如何才能玩兒得轉?

按照業(yè)內認知,芯片自研這件事可以拆分成前、后端兩部分。前端即邏輯設計,是芯片最基本的一些功能,后端是物理設計,是把所有的功能落實到電路并且流片出來的實體。

自研芯片流程示意圖

小團隊一般來講能夠獨立完成的設計只有邏輯芯片的前后端和軟件工具鏈本身,但即便如此,很多設計也僅有5%的自研專用電路。

前述知情人士表示,“市場上大家都是自己做1/5,其余的4/5找別人做,這是相當成熟的生態(tài)。至于如何獲得這些電路IP,有一些是不良渠道,有一些則是合規(guī)的渠道,比如ARM這樣的IP設計廠商授權?!?/p>

對于很多團隊來說,其實具備部分電路的自主設計能力,但因為需要逾越有非常嚴密的知識產權保護的IP,就算做出來也很可能違反了計算機體系結構沒有辦法使用,甚至侵犯了別人的IP,這也是國內廠商自研芯片時碰的第一道坎兒。

還有一部分東西的確是自研團隊設計不了的,比如NOC(Network on Chip,片上網絡)一些非常艱深的結構。

設計只是自研芯片的一個環(huán)節(jié),它還包括流片、量產等等,中間可能還會遇到各種各樣的問題,包括流片失敗,量產產能等,但這些都不是自研的終點,它還需要解決一系列的配套問題,包括如何將產業(yè)鏈整合落到實處。

在外界看來,一顆專用的邏輯芯片大概500多mm2,通用的GPU可以做到800mm2,包含數(shù)百億甚至上千億晶體管,其中一部分功能用于向量計算,可以認為是一個向量處理器的全部,但要落地到應用場景當中,它還需要存儲、能耗控制、供電、整機工況方面的設計與實現(xiàn),也需要互聯(lián)組網變成更大的集群。

此外,產品的最終目的都是打出差異化,這需要在外設接口和整機上做,也就會出現(xiàn)不同的SKU,而行業(yè)通常也是從整機的角度去對比存儲、能耗、坪效。

也就是說,自研芯片除了產業(yè)鏈整合、IP的問題,也得考慮做產品SKU,不是設計出一顆邏輯芯片就可以了。

一位不愿透露姓名的資深人士告訴芯潮IC,“很多國內公司不具備產品設計能力,做出芯片之后,要到各地去測試,它的工程師、商務BD每一天都駐扎在浪潮、曙光等大廠的數(shù)據中心,期待對方新的服務器主板上能夠去留一個插口給自己,測試成功就批量買一批,不過目前成功的確實非常少?!?/p>

量產,是設計、流片以及產品化之外的另一個挑戰(zhàn)。小團隊必須考慮,究竟能不能夠預定到產能?

“產量永遠對Fab廠是一個非常關鍵的數(shù)字?!鼻芭_積電建廠專家吳梓豪表示,廠商要把握自己在哪個環(huán)節(jié)進入,承諾多大的產量,這是打動Fab最關鍵的點。

一線廠商基本都是在DTCO(設計技術協(xié)同優(yōu)化)階段,就已經預定到了Fab廠的最新產能,目前全球最頂尖的設計團隊,比如ARM每年有大批的人駐扎在臺積電,包括許多EDA廠商也是。

DTC決定了下一代處理器在具體節(jié)點上的性能指標,比如通過在3nm節(jié)點,通過合理的布局設計,能節(jié)省多少錢、可以提升多少性能。

“英偉達、蘋果永遠愿意試水最先進的制程,只要臺積電出一個最先進的制程,哪怕良率未知,性能的增益未知,即經濟模型還算不出來的時候,他們就已經在預定產能了,與Fab廠進行DTCO協(xié)同設計,這是一線廠商拿到產能的根本原因?!眳氰骱勒f。

如果沒有從一開始做協(xié)同設計,F(xiàn)ab廠與Fabless團隊,甲乙雙方就得轉換角色,因為大家都不太敢用,F(xiàn)ab廠只能一點一點去推銷自己的新制程,先從風險最低的芯片開始。

比如礦機芯片,結構非常簡單,尺寸又特別小,就很適合最初的試水,當年三星3nm芯片的首個客戶就是一家來自中國的礦機設備廠。

吳梓豪說,“Fab廠在這種小客戶訂單上試水成功后,才能再試著量產PC的CPU,手機芯片,最后是AI芯片,一步一步來。”

目前,國內大廠自研芯片至少已投入了數(shù)十億美金。如果初創(chuàng)公司想入局,要么本身有足夠的多的早期客戶,或有應用平臺去支撐芯片的適配與試錯,要么有足夠的資本或融資能力很強,這兩個條件必須滿足其一。

陳巍告訴芯潮IC,如果是一家沒有低成本人力儲備的商業(yè)化公司,不依靠學?;蜓芯克?,那在量產之前需要不低于5~10億人民幣的融資;但如果有研究所或其他支持的話,人力成本能減少很多,金額門檻可稍微低一些。

“如果沒有那么多錢,但這家創(chuàng)企的成本控制能力非常強,能充分利用好上下游協(xié)作來降低成本也可以,一切都是為了保證產品研發(fā)的持續(xù)進行?!?/p>

Fab選擇優(yōu)先級上,據知情人士透露,最初創(chuàng)企們會選擇去訂購臺積電的產能,其次是格芯,但格芯沒有先進工藝,也沒有封裝,再轉而找中芯國際,但中芯國際能預訂的產能都排到后年了。

對于這一情況,投資機構持更長線的視角。

于浩表示,單就國內自研高端芯片來說,短期內面臨流片瓶頸是必然的,長期就看以中芯國際為代表的先進工藝線打磨和產能擴充的進化速度,主要靠內循環(huán)。不過,有高端芯片設計能力的廠商,不妨考慮出海,用外循環(huán)帶動內循環(huán),走出去反而海闊天空。

03 做英偉達的“掘墓人”不容易

老客戶自立門戶,受傷的總是英偉達。

這一場全球范圍的自研大潮,一個比一個“炸”。除了谷歌TPU、亞馬遜Graviton這些已臻成熟的自研成果。近日,整個科技圈都被“全球首款Transformer專用AI芯片Sohu”刷屏。

美國芯片創(chuàng)業(yè)公司 Etched 推出Transformer專用AI芯片Sohu

這款芯片直接將Transformer架構嵌入芯片內部,在推理性能上遠超GPU和其他通用人工智能芯片,號稱比今年3月才面世的頂尖芯片B200性能高出10倍。據傳,一臺配備8塊Sohu芯片的服務器,性能足以媲美160塊H100 GPU的集群,每秒能處理高達50萬的Llama 7B tokens。

“當紅炸子雞”橫空出世,F(xiàn)ab廠及合作商笑開了花。

據悉,該公司已就Sohu芯片的生產與臺積電4nm工藝展開直接合作,并且已從頂級供應商處獲得足夠的 HBM 和服務器供應,一些早期客戶已經向該公司預訂了數(shù)千萬美元的硬件。網友給Etched起了個諢名——“英偉達的掘墓人”。

但英偉達真會因狼煙四起而“自研”神話破滅嗎?其實不然。

在半導體行業(yè),有一個著名的“牧本周期”——芯片類型有規(guī)律地在通用化和定制化之間不斷交替演化——在某一個特定時期內,通用結構賣得最好,為廣大用戶所歡迎,但到達一定階段后,通用結構在應對特定需求時落后,專用結構會大行其道。

而英偉達正當仁不讓地代表著通用結構時代,這個時代剛好還處在頂峰。

根據富國銀行的統(tǒng)計,英偉達目前在全球數(shù)據中心AI加速市場擁有98%的份額,處于絕對的統(tǒng)治地位。這也就是說,全球98%的人群正在使用英偉達的CUDA C去“榨干”所有GPU的性能,只有剩下那2%-3%的人還在特別堅持用一個不怎么樣的“錘子”,去錘同一個“釘子”。

“現(xiàn)在亞馬遜也好,英特爾也好,自己做的處理器首先經濟上不能滿足一個云廠商利益的最大化,所以他們一定還會大量使用英偉達芯片,直到有一天英偉達徹底失去優(yōu)勢,才會走到牧本周期專用化那條路上?!鼻笆鲋槿耸勘硎尽?/p>

不過,躺平不符合英偉達的人設,黃仁勛是一個深知“生于憂患死于安樂”的人,一年前在臺大的演講,他就談到:“不論是為了食物而奔跑,或不被他人當作食物而奔跑,你往往無法知道自己正處在哪一種情況,但無論如何,都要保持奔跑。”

這次,面對整個硅谷自研的挑戰(zhàn),英偉達也在出牌。

前述資深人士告訴芯潮IC,“英偉達做的早就不是一個通用GPU了,在它的GPU單元中可以看到大量的Tensor Core來解決矩陣計算,除此之外還能看到Transformer引擎、稀疏化引擎等,無論在硬件結構,還是在硬件算子的更新上,英偉達每年都在把自己推向DSA化的設計趨勢?!?/p>

DSA(Domain Specific Architecture)即特定領域架構,是一種針對特定領域定制的可編程處理器架構,能夠優(yōu)化特定應用程序的性能和性價比。目前,谷歌、特斯拉、OpenAI和Cerebras等都針對特定應用推出了自己的DSA芯片。

據知情人士透露,所有做DSA的廠商都會發(fā)現(xiàn),英偉達即使不修改硬件,通用GPU只更新一個算子,DSA廠商的優(yōu)勢就完全沒有了。似乎與英偉達一比,自己不但邏輯芯片面積做得不夠大,器件容量和速度做得也不夠大,算力也比不上英偉達,軟件適配性做得也不夠好,這也是所有DSA廠商都面臨的問題——牧本周期原本要走向DSA特定領域架構,走向定制化的,現(xiàn)在又回到了通用處理器的時代。

除了和DSA廠商“照鏡子”,英偉達也向自研伸出了橄欖枝——2024年年初,專門建立了一個新的業(yè)務部門,由半導體資深人士Dina McKinney領導,專為云計算、5G 電信、游戲、汽車等領域客戶構建定制芯片。

路透社援引知情人士說法稱,英偉達高管已與亞馬遜、Meta、微軟、谷歌和 OpenAI的代表們會晤,討論為它們定制芯片的事宜,除了數(shù)據中心芯片外,該公司還在爭取電信、汽車和視頻游戲客戶。

此前,有消息稱任天堂在今年推出的新版任天堂Switch游戲機,很可能就會搭載英偉達的定制芯片,而英偉達在掌機市場也有很深的沉淀,并且推出過Tegra系列移動芯片,盡管這個芯片系列最后并沒有在移動設備市場占據一席之地。

在性價比主導的市場里,要做英偉達的掘墓人還真沒那么容易。之前的掘墓人大多走向了失敗——最終可能會被收購,像英特爾、Google收購了很多創(chuàng)企,但此外的大多數(shù)企業(yè)甚至等不到收購,直接夭折了。

也許對于初創(chuàng)企業(yè)來說,換一個角度更容易成功。

“比如不要執(zhí)迷于AI處理器本身,與其花很多的時間去兌現(xiàn)一個DSA的理想,不如考慮一下系統(tǒng)級方案,比如可以做周邊外設來為 AI的處理器提供服務,做專業(yè)存儲、專業(yè)傳感器也可以達到同樣的目的?!鼻笆鲋槿耸空f。

2019年,英偉達宣布以69億美金的價格收購Mellanox,這個估值非常之高,英偉達幾乎透支掉自己的整個現(xiàn)金流。

這家公司既不研發(fā)端口,也不研發(fā)光伏模塊,更不研發(fā)交換機本身,它只做了一款產品——交換機底層和通訊底層的那一部分高速互聯(lián)的PHY“InfiniBand”。對于當時亟需突破服務器互連限制的英偉達而言,這是一個非常核心的外設的需求。當時無論NVLink做得多好,始終被鎖死在單機附近。但InfiniBand可以讓交換機突破服務器間的互聯(lián)瓶頸,把所有的GPU互聯(lián)成一個大集群。

放眼當下,國內正火熱攢局,芯片自研的子彈還得再飛一會兒。陳巍認為,攢局不是一件壞事,但要攢一個高端局,以免錯失產業(yè)發(fā)展的關鍵窗口期。

未盡研究創(chuàng)始人周健工進一步展開這一觀點,他認為,今后的應用對于AI芯片的專業(yè)、定制、小型化需求,會超出對于前沿基礎大模型的需求。以更低的成本訓練出開源的、較小型的模型,或者對大模型進行微調和蒸餾等,以及推理,都為自研芯片帶來了廣闊的空間。而且在新技術的快速變動和未成熟期,圍繞上述應用會帶來大量的自研機會。

“不要去做終結英偉達的事,而是去做英偉達之外更多的事?!?/p>