本文來源:時代周報 作者:申謹睿
面壁智能聯(lián)合創(chuàng)始人、CEO李大海
通往AGI的路并不好走。為此,一眾大模型公司各展所長,以求留在牌桌。
階躍星辰堅信從單模態(tài)到多模態(tài),再由多模理解和生成的統(tǒng)一走向世界模型,是到達AGI的必由之路;月之暗面則認為長文本是打開AGI大門的鑰匙;零一萬物、科大訊飛、商湯科技等企業(yè)則面向C端用戶發(fā)布了一系列AI產(chǎn)品,以“落地為王”為方向。
在奔赴AGI的浩蕩大軍中,面壁智能稍顯特殊——大部分公司卷參數(shù)規(guī)模,面壁智能卻希望盡可能將參數(shù)做小。事實上,很多由大規(guī)模參數(shù)支撐的大模型,效率并沒有實現(xiàn)最大化。
在接受時代周報記者采訪時,面壁智能聯(lián)合創(chuàng)始人、CEO李大海多次提及“高效”一詞。他認為,“高效大模型是通向 AGI 的更現(xiàn)實的路徑。要打造更高效的Scaling Law(模型能力與尺度間的漸進關(guān)系)增長曲線,實現(xiàn)同等參數(shù)性能更優(yōu)、同等性能參數(shù)更小的效果?!?/p>
面壁智能成立于2022年8月,專注大模型技術(shù)創(chuàng)新與應(yīng)用轉(zhuǎn)化。創(chuàng)始團隊主要來自清華大學(xué)自然語言處理實驗室。CEO李大海是Google中國的創(chuàng)始員工,2015年加入知乎,2023年出任面壁智能的董事和CEO。今年6月5日,李大海辭任知乎CTO,并不再擔(dān)任執(zhí)行董事;另一名聯(lián)合創(chuàng)始人、首席科學(xué)家劉知遠,是清華大學(xué)計算機科學(xué)與技術(shù)系副教授。
面壁智能是李大海第四個創(chuàng)業(yè)站點,也是他首次擔(dān)任公司一號位。李大海對AGI、大模型的前景極為樂觀。談及最近辭任知乎CTO并不再擔(dān)任執(zhí)行董事一事,他解釋稱,這只是一次正常的工作調(diào)動和安排,沒有特別值得夸大和解讀的地方。
“高效”理念貫徹面壁智能團隊上下。劉知遠認為,高效和通用就是AI可持續(xù)發(fā)展和應(yīng)用的本質(zhì),也是面壁做大模型的核心。面壁智能CTO曾國洋也曾表示,他并不過分擔(dān)憂落后的問題。在他看來,OpenAI的技術(shù)路線可能并不普適,需要根據(jù)自己的實際情況和優(yōu)勢來制定發(fā)展策略,“一味地追求模型參數(shù)量這條路是走不通的,大模型的效率會很關(guān)鍵”。
在試圖將“高效”落地的過程中,面壁智能發(fā)現(xiàn)了端側(cè)模型的巨大潛力。端側(cè)模型相比云側(cè)離用戶更近,雖然云側(cè)大模型性能相對來說會更好,但端側(cè)有它的生態(tài)位。“端云協(xié)同基本被業(yè)界認同是未來大模型的一個主流應(yīng)用模式,蘋果推出Apple Intelligence,就帶頭做了一個示范?!?/p>
李大海認為,端側(cè)對芯片算力和內(nèi)存要求苛刻,它必然是一個足夠高效的大模型,這要求研發(fā)團隊對大模型有足夠深的底層洞察,積累很多Know-How,在大模型Scaling Law之外建立Scaling Prediction(使用小規(guī)模模型的實驗數(shù)據(jù)預(yù)測大模型性能水平)的能力。
“面壁智能的長期征程是AGI。而大模型一定是通往AGI的當(dāng)前所有技術(shù)里能走得最遠的,但它能不能直接達到,還有很多未知因素?!崩畲蠛?偨Y(jié)道。
“現(xiàn)有商業(yè)模式都不是終極形態(tài)”
時代周報:面壁智能為什么沒有選擇從大模型直接走向應(yīng)用,而是將大模型與Agent(智能體)率先結(jié)合?
李大海:關(guān)于AI Agent有各種各樣的視角和說法。但歸根結(jié)底,就是將大模型的能力,向外輸出,變成實際解決問題的能力。
大模型就像汽車引擎。然而,要制造出一輛完整的汽車,除引擎外,還需要轉(zhuǎn)向系統(tǒng)、底盤、內(nèi)飾以及其他所有必要組件。同樣,要充分發(fā)揮大模型的潛力,我們還需要在這個“引擎”基礎(chǔ)上加入一系列高級技術(shù),如增強的記憶能力和使用工具的能力,這樣才能開拓更廣泛的應(yīng)用領(lǐng)域和想象空間。而 AI Agent正是集合這些技術(shù)能力的載體。
時代周報:目前“大模型+Agent”的進展如何?
李大海:公司成立的第一天,我們目標(biāo)就是要做最好的大模型。公司的英文名字 ModelBest ,倒一下順序其實就是 Best Model。一個朋友評價說,面壁智能是最懂 Agent 的大模型公司。實際上我們本質(zhì)是大模型公司,Agent,包括我們在 2021、2022 年最早做的 Infra,其實都是為了把大模型做好。
在我看來,現(xiàn)在大模型主要作為知識壓縮; Agent 技術(shù),不管是外化的 Agent 技術(shù),還是未來內(nèi)化到大模型里面去的Agent技術(shù),將大語言模型和其結(jié)合到一起,能夠更好地到達 AGI 最終的目標(biāo)。
時代周報:當(dāng)下一些互聯(lián)網(wǎng)大廠也躋身應(yīng)用賽道,如果將來應(yīng)用層爆發(fā),大模型很可能被淡化。而to B方面,又不得不面臨單純做大模型交付,實際商業(yè)鏈路較短的局限。你怎樣看待這兩種商業(yè)模式?
李大海:目前的大模型技術(shù)還仍處于高速發(fā)展階段,商業(yè)模式也在隨之持續(xù)構(gòu)建和迭代,無論是to B還是to C,我認為大家都是在解決“讓智能更好服務(wù)于人”的這個共同命題,同樣走在以大模型為主要智能來源的技術(shù)道路,不存在優(yōu)劣之分。
不可否認的是,無論to B還是to C,一項技術(shù)能夠被大規(guī)模普遍的商用前提,一定是技術(shù)的使用成本低過某個臨界點,而考慮到技術(shù)階段和算力等諸多因素,目前整個行業(yè)都還在加速沖向這個臨界點的路上,所以現(xiàn)有的產(chǎn)品和商業(yè)模式都還在探索,而非終極形態(tài)。
時代周報:面壁智能是怎樣接近這一臨界點的?
李大海:面壁基于端側(cè)的大模型解決方案,就是在通過技術(shù)方式提升用戶的使用體驗,讓用戶在端側(cè)能夠有更可靠、隱私更有保障的端側(cè)智能;同時也實現(xiàn)了充分開發(fā)端側(cè)現(xiàn)有算力,從而達到用技術(shù)降低使用成本這件事。
我們不僅要建設(shè)更強的大模型,還要高質(zhì)量、低成本地建設(shè)大模型,讓每個人都能用得上、用得起大模型的通用智能。MiniCPM的誕生正也是基于這樣的愿景以及智能會無所不在的判斷。未來面壁未來的發(fā)展會集中依托于端側(cè)大模型所開展。
時代周報:你剛提到模型迭代的核心支撐力還是技術(shù),但在GPT-4o發(fā)布之后,很多業(yè)內(nèi)人士認為大模型能力迭代的速度普遍慢了下來。
李大海:我認為,大模型能力的迭代速度沒有在變慢,而是在加速。從國內(nèi)到國外,大模型領(lǐng)域里每天都有新的想法、新的技術(shù)在嘗試、并且跟各行各業(yè)結(jié)合有新的產(chǎn)品落地形態(tài),正在快速變化。面壁智能應(yīng)該不存在迭代變慢的問題,并且也有令人激動的新產(chǎn)品正在開發(fā)中。
競爭中的高效
時代周報:在模型能力上,中外的架構(gòu)差異其實不大,造成差距的主要因素還是數(shù)據(jù)質(zhì)量和數(shù)據(jù)能力。面壁智能會選擇消耗昂貴的成本來豐富和標(biāo)注數(shù)據(jù),還是傾向于與數(shù)據(jù)質(zhì)量較高的互聯(lián)網(wǎng)企業(yè)合作來縮小與國外公司的差距?
李大海:現(xiàn)在大家都在講怎么把模型做大,我覺得大模型的“智能密度”也是一個非常重要的事情。有可能當(dāng)有一天達到AGI的那一天時候,還要做的事情是今天龐然大物一樣的大模型已足夠小型化。
譬如,如果把用一個10萬億的參數(shù)模型做到AGI達到的智能水平,從能不能把10萬億模型的參數(shù)降到1萬億、降到1000億,這也是一個要持續(xù)去突破的事情。
時代周報:把目光放到國內(nèi),大模型廠商用相似的訓(xùn)練方法,采用相似的語料,難以產(chǎn)生明顯的競爭優(yōu)勢,面壁智能在這方面有什么考量?
李大海:我認為核心還是“高效”。目前公司已完成了貫徹高效訓(xùn)練、高效落地與高效推理的大模型全棧技術(shù)生產(chǎn)線布局。
高效訓(xùn)練方面,2024年初發(fā)布的“性能小鋼炮”MiniCPM,已經(jīng)意味著面壁大模型高效訓(xùn)練模式的徹底跑通。我們做了上千次面壁“模型沙盒實驗”,對大模型訓(xùn)練過程進行精準(zhǔn)建模、預(yù)測,打造出更加高效的ScalingLaw增長曲線,以更快的速度、更低的成本,提供智能實現(xiàn)的最優(yōu)解決方案。
高效落地方面,面壁智能將通過AI Agent持續(xù)推動建設(shè)這一大模型落地應(yīng)用的最后一公里。
高效推理方面,我們以“銜尾蛇投機采樣”為代表的協(xié)同推理技術(shù),在云側(cè)建立起大小模型之間的協(xié)同,極大提升云側(cè)大模型的服務(wù)速度。與面壁端側(cè)模型相結(jié)合,有望實現(xiàn)端云兩側(cè)協(xié)同推理的新范式,進一步顯著降低大模型使用成本。
時代周報:所以在秉持高效的前提下,你對Scaling Law也會有不同的理解?
李大海:對于大模型的發(fā)展,Scaling Law是公認的經(jīng)驗公式。但訓(xùn)練模型中的訓(xùn)練方法本身對于Scaling Law、對于智能的影響是比較顯著的。因為現(xiàn)在參數(shù)規(guī)模不斷往上,但是讓端側(cè)芯片支撐某個固定規(guī)模范圍的模型難度比較大。所以要做到足夠好的智能,那數(shù)據(jù)質(zhì)量、訓(xùn)練方法這些都變得非常重要。
所以,相對于“把模型做大”,我們更關(guān)心如何讓模型“有效訓(xùn)練更多數(shù)據(jù)”。
時代周報:面壁智能是不是一位擅長錯位競爭的選手?
李大海:我認為“高效”也可以用來解釋競爭層面的問題。比如我們做端側(cè),就是看到了端側(cè)能更早更快落地的可能性。最近有機構(gòu)做過一個調(diào)研,發(fā)現(xiàn)全國10億用戶的手機端側(cè)的算力,相當(dāng)于差不多100萬片H100。這是一個非??鋸埖臄?shù)字。如果不同的手機上的算力能夠被好好利用起來,很多應(yīng)用就可以落地了。
當(dāng)然,現(xiàn)在這個階段,包括現(xiàn)在到未來,都需要端側(cè)跟云側(cè)模型好好協(xié)同。端側(cè)有端側(cè)的優(yōu)勢,它的優(yōu)勢是隱私性好、更可靠、響應(yīng)快,但是云上的模型目前肯定要比端側(cè)現(xiàn)有能力強大,這是我們跟其他所有模型公司要一起協(xié)作的事。
時代周報:你一直認為百花齊放才是春,當(dāng)下大模型開啟價格戰(zhàn),這對中小廠商和整體行業(yè)是利空嗎?
李大海:當(dāng)前所謂的價格戰(zhàn),多多少少有一些營銷的成分在,但是我相信未來一定會比現(xiàn)在的價格還要低,并且大家都有利潤,這才是健康的方式,并且才真的能讓千行百業(yè)的應(yīng)用往下落地。
時代周報:英偉達A100、H100等產(chǎn)品售價飆漲、一卡難求,助推了國內(nèi)算力租賃市場繁榮。最近英偉達面臨反壟斷調(diào)查,你認為國產(chǎn)算力的發(fā)展空間是否可持續(xù)?
李大海:算力只是基礎(chǔ)設(shè)施的一部分,基礎(chǔ)設(shè)施的更新與否,即使面對不確定的情況,應(yīng)該也會有替代方案。畢竟大模型未來釋放出龐大的需求,產(chǎn)生了可觀的效益后,一定會有人把配套做好。商業(yè)利益的驅(qū)動力量不可低估。
發(fā)表評論
2024-06-27 19:50:34