2024年已經(jīng)過去了一半,我們離AGI的距離拉近了多少?離實(shí)現(xiàn)AGI還有多久時間?能實(shí)現(xiàn)AGI的終極路線是什么?
曾推出國內(nèi)首個大模型「悟道」的北京智源人工智能研究院,在在第六屆“北京智源大會”上給出了一些答案。
在智源研究院院長王仲遠(yuǎn)看來,當(dāng)前基于大模型的人工智能技術(shù),實(shí)現(xiàn)AGI 可能只需要四五年。如果目標(biāo)是追求AGI,特別是通過使用多模態(tài)大模型實(shí)現(xiàn)AGI,相比DiT,自回歸模型(auto regressive)才是終極的技術(shù)路線。
在未來,大模型將以數(shù)字智能體的形態(tài)與智能硬件融合,以具身智能的形態(tài)從數(shù)字世界進(jìn)入物理世界,同時,大模型這一技術(shù)手段可為科學(xué)研究提供新的知識表達(dá)范式,加速人類對微觀物理世界規(guī)律的探索與研究突破,不斷趨近通用人工智能的終極目標(biāo)。
“北京智源大會”上,智源研究院還發(fā)布了一系列在語言、多模態(tài)、具身、生物計算大模型的前沿探索和研究進(jìn)展以及大模型全棧開源技術(shù)基座的迭代升級與版圖布局。
圖片來源:智源研究院
在大會期間,王仲遠(yuǎn)接受了極客公園在內(nèi)的媒體訪問。以下為對話整理(有刪減):
大模型價格戰(zhàn)進(jìn)行時
?Q:目前國內(nèi)的大模型都在經(jīng)歷降價潮,對此怎么看?
王仲遠(yuǎn):有利有弊。一方面,某種程度上的降價對于開發(fā)者去開發(fā)自己的應(yīng)用場景,然后去接入大模型去做更多的嘗試,是有一定的價值;另外一方面,如果降價導(dǎo)致收入低于成本,可能不利于大模型的持續(xù)迭代和優(yōu)化,因為這些過程需要巨大資金投入。我也認(rèn)為中國的大模型不應(yīng)該停留在GPT-4,而應(yīng)尋求建立一個健康的產(chǎn)業(yè)生態(tài)和找到合適的商業(yè)模式,以實(shí)現(xiàn)可持續(xù)發(fā)展。
?Q:價格戰(zhàn)會對產(chǎn)業(yè)和開發(fā)者帶來哪些影響?百模大戰(zhàn)會不會很快有洗牌?
王仲遠(yuǎn):對于開發(fā)者而言,價格戰(zhàn)顯然是有利的。當(dāng)前,開發(fā)者的選擇非常多,例如智源的 FlagOpen 提供了針對大模型全棧的解決方案,包括訓(xùn)練框架、清洗工具、模型算法以及支持不同芯片的獨(dú)特算子。開發(fā)者可以選擇開源社區(qū)的工具,也可以利用商業(yè)模型的降價來嘗試不同公司的模型效果,從而獲得更好的資源和支持。
關(guān)于百模大戰(zhàn)是否會很快引發(fā)市場洗牌,我無法直接對這個問題直接給出一個明確的答案,畢竟我們只是一個科研機(jī)構(gòu)。我們希望看到整個產(chǎn)業(yè)能夠更加健康地發(fā)展,避免出現(xiàn)劣幣驅(qū)逐良幣的情況。
Q:大模型降價潮下,價格和價值之間如何衡量?
王仲遠(yuǎn):我個人認(rèn)為,現(xiàn)階段對于應(yīng)用開發(fā)者而言,選大模型時優(yōu)先考慮的肯定不是性價比,而是模型的實(shí)際效果。開發(fā)者首要關(guān)注的是所選的大模型是否真正具備人工智能的能力,能否為自己的產(chǎn)品賦能,而不是選擇一個表現(xiàn)不佳的“人工智障”模型。在這個基礎(chǔ)上,我相信價格最終會達(dá)到一個合理的水平。
實(shí)際上,如果一個大模型被廣泛認(rèn)為特別好用,隨著使用規(guī)模的擴(kuò)大,規(guī)模效應(yīng)自然會顯現(xiàn)。模型的規(guī)模上去了,其價格以及工程師們通過各種工程架構(gòu)系統(tǒng)優(yōu)化所帶來的成本降低也會隨之而來。因此,當(dāng)下理性客觀的開發(fā)者在選擇大模型時,應(yīng)該不太會將價格作為主要考慮因素。 Q:如今 AI 基建也進(jìn)入了拼應(yīng)用的階段,您覺得具體的這個落地場景有哪些?您重點(diǎn)關(guān)注什么領(lǐng)域??
王仲遠(yuǎn):首先,正如我之前提到的,國產(chǎn)大模型的能力已經(jīng)逼近GPT-4,具備了支撐應(yīng)用的條件。我個人預(yù)測,未來兩三年內(nèi)我們會看到大量應(yīng)用的產(chǎn)生。應(yīng)用可以分為B端應(yīng)用和C端應(yīng)用。
B端應(yīng)用目前相對明確,因為許多大模型已經(jīng)在多個場景中廣泛應(yīng)用,幾乎覆蓋了所有行業(yè)。
在2023年之前,可以稱之為弱人工智能時代,那時的人工智能只能針對特定場景、特定任務(wù)訓(xùn)練特定模型,從而達(dá)到特定效果。
然而,2023年之后,人工智能逐步進(jìn)入通用人工智能時代,其最大的特點(diǎn)是泛化性、通用性和跨領(lǐng)域的特性,這將幾乎影響所有行業(yè)。
一些行業(yè)的影響會更快,比如大模型在生成摘要方面效果非常好,因此對所有與文書相關(guān)的工作、文案處理等效率提升作用顯著。
再比如,當(dāng)前的文生圖、文生視頻技術(shù),雖然還處于早期階段,但已經(jīng)能夠產(chǎn)生許多有創(chuàng)意的圖片和視頻,這些都是提升效率的工具。
在金融保險、醫(yī)療教育等行業(yè),人工智能的作用同樣顯著。只要與這些能力相關(guān),各行各業(yè)都會受益,并且未來會不斷出現(xiàn)好用的工具。大模型作為生產(chǎn)力和效率工具的作用非常明確。
C端應(yīng)用方面,大家更希望看到爆款應(yīng)用的出現(xiàn)。回顧移動互聯(lián)網(wǎng)時代或更早期的技術(shù)革命,每次新技術(shù)的出現(xiàn)都需要一定的周期,包括技術(shù)能力的提升、成本的降低以及硬件的支持。當(dāng)這些條件具備時,能夠解決真實(shí)用戶需求的C端爆款應(yīng)用才會出現(xiàn)。
因此,對于C端爆款應(yīng)用,我們還需保持一定的耐心。即使在其他國家,目前也尚未出現(xiàn)C端的爆款應(yīng)用。未來一兩年內(nèi),我們可能會先從B端看到非常好用的工具,然后C端應(yīng)用會逐步出現(xiàn)。
此外,我還想補(bǔ)充一點(diǎn),智能體(Agent)很有可能會成為爆款應(yīng)用的一個方向,大模型可以讓它成為真正意義上的智能助理。如果每個人都能擁有一個足夠智能和好用的助理,這種科技帶來的平權(quán)將催生重大的產(chǎn)業(yè)變革。這可能是C端應(yīng)用的一個重要方向,也是令人興奮的前景。
Q:大模型在手機(jī)上處于什么樣的階段?
王仲遠(yuǎn):目前AI模型在手機(jī)端的應(yīng)用還處在非常早期的階段。由于當(dāng)前手機(jī)硬件能力的限制,手機(jī)尚無法運(yùn)行真正意義上的大模型。那么,它能運(yùn)行的模型大概是什么規(guī)模呢?我們這次發(fā)布了一個輕量級的圖文多模態(tài)大模型,叫Bunny3B、4B、8B。這樣的輕量級模型或許有可能在手機(jī)上運(yùn)行,但其智能化水平、解決問題的能力和推理能力顯然比真正意義上的大模型要差得多。
對于C端用戶來說,他們對模型的全方位能力非常敏感。如果某些指令或期望的效果未能得到滿足,他們很可能會抱怨。這也是為什么基于大模型的許多C端應(yīng)用留存率依然不高,因為在用戶留存率不夠的情況下,很難產(chǎn)生真正的爆款應(yīng)用。
結(jié)合手機(jī)端的應(yīng)用還處在非常早期階段。要實(shí)現(xiàn)真正的殺手級應(yīng)用,需要天時地利人和:不僅需要大模型本身能力的提升,還需要輕量化后的模型依然能達(dá)到令人驚艷的效果,比如能夠?qū)崿F(xiàn)頂尖大模型90%的能力。當(dāng)最優(yōu)秀的輕量級模型能達(dá)到這一水平時,手機(jī)端和PC端的應(yīng)用才會相應(yīng)爆發(fā)。
這包括模型和硬件的提升,手機(jī)廠商也需要愿意將能夠運(yùn)行大模型的芯片內(nèi)置到手機(jī)中。此外,端側(cè)和云端如何協(xié)同、隱私問題如何解決,以及如何滿足用戶的最大需求等問題都需要得到完美解決。只有當(dāng)這些條件都具備時,真正的爆發(fā)點(diǎn)才會到來。所以,目前我們?nèi)蕴幵诜浅T缙诘碾A段。
Q:從22 年底到現(xiàn)在我們也說過這個卷參數(shù),卷應(yīng)用,從圈內(nèi)人的這個視角來看大模型現(xiàn)在進(jìn)入到了一個什么樣的階段?
王仲遠(yuǎn):我們不能夠高估一次技術(shù)革命的速度,但也不能低估一次技術(shù)革命它的深度和廣度。歷史上每次工業(yè)革命的持續(xù)時間都不是一兩年,而是數(shù)十年,而且會對生活的各個方面產(chǎn)生持續(xù)而深遠(yuǎn)的影響。
之前的人工智能其實(shí)仍然是「弱人工智能」,一些最本質(zhì)、最深層的問題,比如對文字的理解、推理問題一直沒有被解決,所以在可能大概在三四年前,我覺得可能人工智能第三次浪潮有可能會陷入低谷。
但當(dāng)前基于大模型的人工智能技術(shù),尤其是可能的通用人工智能的發(fā)展,有可能成為真正意義上的第四次工業(yè)革命。
幾年前,我可能會認(rèn)為實(shí)現(xiàn)通用人工智能(AGI)可能還需要四五十年的時間,但現(xiàn)在我覺得可能只需四五年。
放到整個歷史的長河來看,所有的這一切都非常的正常,而且我們的速度還挺快的。無論是模型迭代的速度,還是未來可能出現(xiàn)的B端和C端殺手級應(yīng)用,我堅信它們一定會到來。
只是可能絕大部分的用戶,可能要等到這些技術(shù)真正爆發(fā)并廣泛應(yīng)用后才會意識到其影響,預(yù)計這種進(jìn)展可能會在GPT-4及其后續(xù)版本中體現(xiàn)出來。
具身智能和機(jī)器人
Q:大模型怎么樣賦能機(jī)器人??王仲遠(yuǎn):智能體到底存在數(shù)字世界還是存在物理世界?這就非常有意思了。
智能體通常最初存在于數(shù)字世界,比如在手機(jī)或電腦上的智能助理,它們通過軟件和算法執(zhí)行任務(wù)和交互。隨著技術(shù)的發(fā)展,這些智能體可能會進(jìn)一步發(fā)展成為具有物理實(shí)體的機(jī)器人,那么這就到了具身智能大模型。
當(dāng)然因為硬件的發(fā)展速度現(xiàn)在比不上大模型的迭代速度,幾乎是每個月都可以看到至少 5 個、 10 個全球有影響力的大模型發(fā)布,但硬件還遠(yuǎn)沒有到這種迭代的周期和速度,硬件通常的迭代周期和速度還是以年來計算的,這就意味著一方面大家可能現(xiàn)在會看到具身智能人形機(jī)器人在過去這一年突然間變得非?;馃?,但也請大家其實(shí)要保持客觀理性的來看待具身智能大模型,包括人形機(jī)器人的技術(shù)發(fā)展周期,要能夠接受它在未來幾年內(nèi)可能進(jìn)入到低谷,直到它跨越真正的周期,迎來真正的爆發(fā)。
但是我堅信智能體會從數(shù)字世界進(jìn)入到物理世界,具身智能也會跟世界模型相互促進(jìn),并最終實(shí)現(xiàn)AGI。
Q:智源本次發(fā)布的智能超聲機(jī)器人和生物計算法模型,都是聚焦于醫(yī)療領(lǐng)域,為什么關(guān)注這個?
王仲遠(yuǎn):這個項目是跟清華大學(xué)和 301 醫(yī)院一起聯(lián)合研發(fā)的,應(yīng)該是全球首創(chuàng)的智能心臟超聲機(jī)器人。
它是從心臟超聲做起,但是它并不局限于此,我們正在把它的能力拓展到人身體的其他部位的超聲,不過智能心臟超聲機(jī)器人,實(shí)際上更屬于具身智能的范疇。
然后 OpenComplex 生物計算模型,屬于這個 AI for science 的范疇,那么剛才提到了我們認(rèn)為大模型最終會進(jìn)入到真實(shí)的世界,而不會只存在于數(shù)字世界里面,那么宏觀的世界就是機(jī)器人,微觀的世界就是生命分子,這是我們布局這兩塊研究的一個很重要的原因。
?心臟智能超聲機(jī)器人屬于具身智能在醫(yī)療領(lǐng)域的應(yīng)用。OpenComplex其實(shí)可以用在提升藥物研發(fā)的效率,因為藥物研發(fā)上有一個雙十定律,就是一款新藥從立項研發(fā)到真正能夠上市,它可能要耗費(fèi) 10 年的時間,超過 10 億美金。
所以 AI 加藥物研發(fā)或者 AI 制藥是過去這些年確實(shí)是非常熱的一個話題。那么我們將生成式人工智能技術(shù)或者生物計算大模型應(yīng)用在 AI 藥物研發(fā),除了能夠做化合物的篩選和預(yù)測這種小分子的藥,它甚至能夠給制藥帶來新的可能性,就把大分子蛋白質(zhì) RNA 這種制藥的可能性都添加進(jìn)去,變成一種新的可能的制藥的一個方式,這是一個從 0 到 1 的可能性的突破。 至于為什么關(guān)注醫(yī)療領(lǐng)域,從研究的角度來講,我們其實(shí)布局的是具身智能大模型和生物計算大模型,而且我們的這些模型在醫(yī)療領(lǐng)域能發(fā)揮比較好的作用,尤其醫(yī)療是關(guān)系到每一個人的,那么對于像智源這樣的科研機(jī)構(gòu),我們肯定還是希望能夠?qū)嬅裆?,對于整個全社會能夠做出一些底層的貢獻(xiàn)。
Q:那接下來智源還會在具身智能上關(guān)注哪些領(lǐng)域??王仲遠(yuǎn):具身智能未來仍然是非常重要的一個方向,會是我們重兵投入或者集中資源的投入的方向。
剛才講了具身智能距離真實(shí)的應(yīng)用或者說對產(chǎn)業(yè)化還是要有比較長的時間,大家對于具身智能,對于人形機(jī)器人還是要保持理性客觀的看待,它里面依然有非常多的需要亟待突破的問題,包括缺乏類似于ImageNet的大規(guī)模數(shù)據(jù)集,缺乏像 GP3.5 這樣的 「ChatGPT 時刻」,也缺乏殺手級的場景。
?我們接下還是會依托智源在大模型,尤其是多模態(tài)大模型的技術(shù)優(yōu)勢,去做技術(shù)突破;同時我們會聯(lián)合像清華、北大、中科院這樣的高校,也會聯(lián)合包括像銀河通用以及我們自己孵化的領(lǐng)視智遠(yuǎn)這樣的企業(yè),也非常歡迎更多的企業(yè)跟我們一起,搭建一個具身智能的創(chuàng)新平臺,聯(lián)合包括上下游的供應(yīng)鏈的企業(yè),通過具身智能創(chuàng)新平臺來解決最重要的數(shù)據(jù)模型和場景這幾個面的重大突破,推動具身智能技術(shù)的發(fā)展。這是我們下半年和明年的一個重要工作重點(diǎn)。
終極路線:自回歸
?Q:就多模態(tài)而言,auto regression 對于 DiT是否具有顛覆性??王仲遠(yuǎn):首先在僅僅從技術(shù)上判斷,我們認(rèn)為將來 DiT 不是終極的技術(shù)路線。當(dāng)然 DiT 毫無疑問能夠達(dá)到一個可用的產(chǎn)品級別。
然而,如果我們的目標(biāo)是追求人工通用智能(AGI),特別是通過使用多模態(tài)大模型實(shí)現(xiàn)AGI,我們認(rèn)為自回歸模型(auto regressive)在將不同模態(tài),尤其是語言大模型進(jìn)行整合方面具有重要意義。我們甚至認(rèn)為像OpenAI的ChatGPT和Sora等產(chǎn)品線在未來有可能進(jìn)一步融合。 Q:智源大致從什么時候開始走自回歸路線的?是否中間也是走過像 DiT 這樣的路線?
王仲遠(yuǎn):目前我們在內(nèi)部沒有走過 DiT 的路線,但關(guān)注過 DiT 的論文。
我們現(xiàn)在正在訓(xùn)練中的模型叫 Emu 3,其目標(biāo)是實(shí)現(xiàn)原生多模態(tài)世界模型。我們相信,當(dāng)這個模型最終發(fā)布時,它的效果和影響力會非常重要。然而,這條技術(shù)路線非常難。我們選擇這條路線的原因是智源不追隨企業(yè)界已經(jīng)復(fù)現(xiàn)和相對成熟的路線,而是致力于探索多模態(tài)技術(shù)方向的終極路線。 智源選擇了一條我們認(rèn)為在多模態(tài)方向上的終極技術(shù)路線,這條路線非常困難。即使是 Google 的 Gemini 也未完全實(shí)現(xiàn)這一目標(biāo)。Gemini 實(shí)現(xiàn)了圖片、文字、圖像、視頻和聲音的輸入,但輸出的只是圖像和文字。GPT-4 集成了音頻,但還沒有完全實(shí)現(xiàn)視頻的生成和理解。
因此,這項技術(shù)本身具有很高的難度,但這種難度恰恰適合智源研究院來挑戰(zhàn),因為我們的使命是實(shí)現(xiàn)真正的技術(shù)突破和原始創(chuàng)新。同時我們也會尊重科學(xué)規(guī)律,并接受失敗的可能性。并不是創(chuàng)新就一定會成功,但即使失敗也是非常有意義的創(chuàng)新。 Q: auto regressive路線如果要成功的話,對于底層算力的要求很高。?王仲遠(yuǎn):我們現(xiàn)在依然在做的是技術(shù)突破、探索和創(chuàng)新。但因為我們作為一個科研機(jī)構(gòu),我們的算力確實(shí)還是極其有限的,我們更多的是要把這條技術(shù)路線給趟通,要進(jìn)入到產(chǎn)業(yè)化,還是需要真正有重大算力的公司跟我們合作。 Q:這個事要做成需要怎樣的算力條件??王仲遠(yuǎn):當(dāng)下的資源不能說夠但至少讓我們可以去探索。我們很希望為中國儲備多模態(tài)方面方向的技術(shù)。 為什么我們選擇自回歸技術(shù)?其實(shí)自回歸(auto regressive)和 Transformer 等技術(shù)并不是全新的原創(chuàng)技術(shù),ChatGPT 本質(zhì)上就是基于自回歸技術(shù)。
所以,我們是選擇了一條我們認(rèn)為適合多模態(tài)技術(shù)的原生路線,這條路線需要從最原始的層面融合不同的模態(tài)。同時,這條路線具有可擴(kuò)展性,既可以融合文字、圖像和視頻,也可以方便地融合音頻和3D內(nèi)容。
如果將來有一天,我們覺得這條技術(shù)路線探通探索成功了,到了真正能引起更廣泛關(guān)注的時候,它的技術(shù)又可以進(jìn)入到產(chǎn)業(yè)界,在那個時候一定需要更海量的算力。 Q:剛剛說到終極的技術(shù)路線是自回歸,屬于原始創(chuàng)新,可能會失敗,那么什么環(huán)節(jié)、什么地方最難?
王仲遠(yuǎn):每個環(huán)節(jié)都很難,第一數(shù)據(jù)處理。多模態(tài),文字算一種模態(tài),圖像算一種模態(tài),視頻算一種模態(tài),聲音算一種模態(tài),這些模態(tài)到底應(yīng)該怎樣tokenizer?不同的模態(tài)到底怎么表達(dá)成token?這本身就是一個技術(shù)方向或者研究問題。
當(dāng)這些 token 訓(xùn)練的時候,到底用什么樣的數(shù)據(jù)配比,ROC曲線什么是合理的,模型先后訓(xùn)練什么,有非常多的訓(xùn)練的技巧,能不能形成有效的算力支持訓(xùn)練,最終評判實(shí)際達(dá)到的效果能不能看到Scaling Law?能不能看到隨著數(shù)據(jù)量的提升,參數(shù)規(guī)模的提升,模型效果也在提升?這些都是亟待被突破驗證解決的問題。
?Q:現(xiàn)在各家大模型強(qiáng)調(diào)處理文本的數(shù)量,如何評價這種做法?大模型應(yīng)該真正注重哪些維度?
王仲遠(yuǎn):長文本肯定是一個大模型非常重要的特性,但不是唯一特性。大模型一定要關(guān)注的是它的理解和推理能力,我自己相信 AGI 到來的會是大模型的理解推理能力,尤其是那些理解上的,理科上的能力,比如解數(shù)學(xué)題、比如能不能夠真正的編程,然后能夠像人類一樣進(jìn)行理解、進(jìn)行思考、進(jìn)行推理,這個是決定達(dá)模型是否具備足夠的通用性和泛化能力的一個核心。
Q:怎么樣讓大模型更加像人類這樣思考?
王仲遠(yuǎn):大模型在理解和推理能力上的躍升,是近年來人工智能領(lǐng)域的一個重要突破。這個進(jìn)步與大模型的 Scaling Law 有關(guān),即隨著模型參數(shù)、訓(xùn)練數(shù)據(jù)和計算量的增加,模型的性能顯著提升。這也是過去十幾年我一直都在追逐的方向,讓機(jī)器像人類一樣理解自然語言。 大模型之所以能夠帶來技術(shù)上的可能性,很大程度上是因為其基礎(chǔ)是神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)的核心結(jié)構(gòu)——神經(jīng)元結(jié)構(gòu),自1943年提出以來一直沒有改變。盡管 Scaling Law 在近幾年被廣泛提及,但其實(shí)這個概念已經(jīng)存在了七八十年。每次神經(jīng)網(wǎng)絡(luò)和人工智能的快速發(fā)展,都是由于模型參數(shù)、訓(xùn)練數(shù)據(jù)和計算能力的重大躍升。 所以模型能不能夠繼續(xù)提升它的推理能力?繼續(xù)推提升像人類一樣思考的能力,這恰恰是大模型或者通用大模型需要去解決的問題,我們也很期待它能夠持續(xù)展現(xiàn)這樣的一個能力,因為只有當(dāng)這樣的能力出現(xiàn),才能夠真正在各行各業(yè)實(shí)現(xiàn)真正的應(yīng)用突破。
圖片來源:智源研究院院
發(fā)表評論