OpenAI斷供了。
自7月9日起,包括中國(guó)大陸、中國(guó)香港、俄羅斯、朝鮮、伊朗等國(guó)家和地區(qū)都不能再接入他們的API。
一看名單,全是美利堅(jiān)的制裁對(duì)象,這當(dāng)然是一個(gè)政治問(wèn)題。
不過(guò)大家要是對(duì)OpenAI這家公司持續(xù)關(guān)注的話,這個(gè)決定一點(diǎn)也不奇怪。
不久前,OpenAI的CEO奧特曼就解散了安全團(tuán)隊(duì)——超級(jí)對(duì)齊,這個(gè)由OpenAI曾經(jīng)的首席科學(xué)家Ilya Sutskever帶的團(tuán)隊(duì)。
Ilya隨即出走。很快,奧特曼就組建了一個(gè)新的安全團(tuán)隊(duì),而這個(gè)團(tuán)隊(duì)的領(lǐng)導(dǎo)人是美國(guó)國(guó)安局前局長(zhǎng)保羅·中曾根(Paul M. Nakasone)。
當(dāng)OpenAI變成CloseAI,會(huì)對(duì)整個(gè)行業(yè)帶來(lái)什么影響呢?
我們先看看這一波“斷供”可能會(huì)帶來(lái)什么吧。
01
所謂的斷供“API”,這里的API指的是“應(yīng)用程序編程接口”。
你可以把API通俗地理解為餐廳的菜單。你可以用它來(lái)點(diǎn)菜,但你并不知道菜是怎么做出來(lái)的。
還記得ChatGPT剛出來(lái)那陣兒,涌現(xiàn)出來(lái)無(wú)數(shù)AI公司么。它們就是顧客,炒菜的是OpenAI,然后它們?cè)侔殉春玫牟税b一下,賣給餐廳外的我們。
所以本質(zhì)上它們就是套殼公司,真正生產(chǎn)的是OpenAI。
可想而知,斷供對(duì)這些公司來(lái)說(shuō)無(wú)異于釜底抽薪,把吃飯的家伙給收走了。
但換個(gè)角度想,OpenAI這個(gè)AI行業(yè)內(nèi)巨無(wú)霸居然主動(dòng)讓出市場(chǎng),有錢不賺是傻蛋。
這不,國(guó)內(nèi)各路高手立馬就像餓虎撲食一樣沖上來(lái)?yè)屵@潑天富貴,各種“搬家計(jì)劃”紛紛出爐,服務(wù)不要太周到。
比如阿里的通義千問(wèn),除了提供專屬的遷移服務(wù)外,主力模型調(diào)用API的價(jià)格更是只有GPT-4的1/50。這還是在通義千問(wèn)跟GPT-4實(shí)力相當(dāng)?shù)那闆r下的價(jià)格。
其他包括智譜、訊飛、百度、百川等都提供了相當(dāng)優(yōu)惠的價(jià)格。
所以,現(xiàn)在擺在他們面前的已經(jīng)不是to?be?or?not?to?be的生死問(wèn)題,而是如何從一眾“備胎”中挑最好的那個(gè)。
02
什么樣的模型才是好模型呢?
正如歐洲歷史上最強(qiáng)的男人拿破侖所說(shuō),不想拿第一的模型不是好模型。
就像學(xué)生通過(guò)各個(gè)科目的考試比成績(jī),大模型的能力也是看做題的成績(jī)。
學(xué)生有語(yǔ)數(shù)外理綜文綜的項(xiàng)目,大模型有推理能力、數(shù)學(xué)能力、編程能力、語(yǔ)言能力、多模態(tài)能力等多種項(xiàng)目。
比如最常用的MMLU數(shù)據(jù)集,內(nèi)容涵蓋了STEM、人文、社科等57個(gè)學(xué)科,就是常用來(lái)測(cè)試模型知識(shí)和推理能力的數(shù)據(jù)集。
此外還有??贾形牡腃-Eval、考奧數(shù)的MATH(好會(huì)取名字)等等。
自然,每家模型都會(huì)爭(zhēng)取考個(gè)好成績(jī)。但就像學(xué)生考試一樣,有的人實(shí)力強(qiáng)大,有的人有自己的辦法。
截至2024年6月28日,C-Eval榜單上,前20名全是我國(guó)的大模型,GPT-4位于21位。
這并不符合我的實(shí)際體驗(yàn),雖然GPT-4的能力并沒有像以前一樣碾壓了,但也不至于排到21名啊??梢哉f(shuō),這份榜單在某種程度上失真了。
造成這種現(xiàn)象的原因有很多。
首先是隨著大模型的不斷升級(jí),一些題目變得相對(duì)簡(jiǎn)單了。就像以前大家都是小學(xué)生,考初中的題目,大家分都不高。但經(jīng)過(guò)一年多的學(xué)習(xí),大家的水平上升到了高中生,再去做這些題,都能得個(gè)90分以上,那么這個(gè)試題就不能很好地區(qū)分大家的水平了。
其次,閉卷變開卷。雖然這些考題都不是公開數(shù)據(jù)集,但我每天就擱那考試,一連考幾十天。那考試就跟刷題庫(kù)一樣了,考試的題目也逐漸公開。后來(lái)的大模型們直接用這些公開的題目去訓(xùn)練,那再去考的時(shí)候,就相當(dāng)于開卷考試了。就算是難如數(shù)學(xué)競(jìng)賽,出成績(jī)也不是不可能的。
當(dāng)然了,考題本身的質(zhì)量也很重要。
這是著名的開源社區(qū)Huggingface發(fā)布的榜單Open LLM Leaderboard的最高成績(jī)。可以看到,從2023年9月到2024年5月,大模型在各個(gè)科目取得的成績(jī)都不斷地提高,都接近虛線,也就是人類水平。
當(dāng)然這個(gè)成績(jī)并不意味著大模型已經(jīng)跟人一樣了,而是說(shuō)明了這份卷子已經(jīng)被做爛了。
所以,Huggingface在6月推出了一套新試題,升級(jí)版的Open LLM Leaderboard v2。
這套試題比此前版本難度高了不少,比如GPQA數(shù)據(jù)里面全是研究生級(jí)別的知識(shí),且專門找了生物、物理、化學(xué)等領(lǐng)域的博士生來(lái)出題。
客觀講,這一波很有誠(chéng)意,沒給那些刷榜的大模型留下什么空子鉆。
各考生做這套卷子的成績(jī)很快出來(lái),榜單很出乎意料:
里面有不少老熟人,當(dāng)紅炸子雞,“法國(guó)的OpenAI”Mistral、“史上最強(qiáng)開源大模型”Llama3以及打敗了Llama3的通義千問(wèn)Qwen2-72B(720億參數(shù))。
在這家法國(guó)榜單上看到咱國(guó)產(chǎn)的通義千問(wèn),屬實(shí)是有點(diǎn)驚訝。
我又去看了詳細(xì)的成績(jī)單,Qwen2的數(shù)學(xué)(MATH)、專業(yè)知識(shí)(GPQA)和長(zhǎng)上下文推理(MuSR)是優(yōu)勢(shì)學(xué)科,尤其是數(shù)學(xué),比第二高了6分。哦不好意思,第二名是沒有經(jīng)過(guò)微調(diào)的Qwen2。
這份成績(jī)得到了Huggingface CEO的稱贊:
我去看了另一個(gè)榜單LiveBench AI,這是在圖靈獎(jiǎng)得主、AI三巨頭之一的楊立昆(Yann LeCun)主導(dǎo)的一個(gè)大模型測(cè)評(píng)基準(zhǔn)。
Qwen2-72B排名第8。
但這是包括了所有閉源模型的總榜單,Qwen2-72B是前十中唯一一個(gè)開源模型。
還有其他的榜單,Qwen2基本都是開源中的霸主,在這里就不多列了。
這說(shuō)明了Qwen2的做題能力很強(qiáng)。但它到底是做題家還是真的實(shí)力強(qiáng)大呢?這需要一線開發(fā)者的測(cè)試。
紅迪(reddit)里的開發(fā)者測(cè)試后,給出了肯定的評(píng)價(jià):
初次測(cè)試很不錯(cuò),有一個(gè)題目其他模型都錯(cuò)了,只有Qwen7B對(duì)了
另一個(gè)意大利的開發(fā)者甚至說(shuō)“太強(qiáng)了以至于不像真的”:
我又去看了看推特,開發(fā)者們測(cè)試后也都非常認(rèn)可Qwen2的能力,比如這位斯坦福的計(jì)算機(jī)副教授Percy Liang:
至此,我覺得Qwen2的實(shí)力已經(jīng)沒什么可質(zhì)疑的了。
03
開源這條賽道上,競(jìng)爭(zhēng)從來(lái)都不比閉源小。
前有法國(guó)獨(dú)角獸Mistral直接免費(fèi)甩出自家大模型 Mistral 7B 的磁力下載鏈接。
開發(fā)者們下下來(lái)一跑,發(fā)現(xiàn)竟然性能并不比 130 億參數(shù)的 Llama 2 弱多少,而且微調(diào)一下,用一張顯卡上就能跑。
后來(lái)他們又推出了更大參數(shù)量的 Mixtral 8x7B,性能追平了Llama2和ChatGPT3.5。
這讓Mistral先后融資超11億刀,數(shù)錢數(shù)到手軟。
而兩個(gè)月前,深耕開源的Meta正式發(fā)布了Llama3 8B和70B,這個(gè)據(jù)估計(jì)花費(fèi)了1500萬(wàn)美元來(lái)訓(xùn)練的開源模型,重新奪回鐵王座。
Meta官方認(rèn)證為“迄今為止最強(qiáng)的開源大模型”。
當(dāng)時(shí)外界有一種聲音說(shuō):“只有GPT-5能壓住Llama3了?!?/P>
但GPT-5沒來(lái),Qwen2先來(lái)了,驚不驚喜,意不意外?
其實(shí),阿里云是國(guó)內(nèi)首個(gè)做開源的大型科技企業(yè)。2023年8月,他們就開源了Qwen7B。
到現(xiàn)在,他們一共開源了Qwen-VL、Qwen-14B、Qwen-72B、Qwen-1.8B、Qwen-Audio、Qwen1.5的8款模型和Qwen2系列的5個(gè)模型,參數(shù)從5000萬(wàn)到720億,可謂是全家桶了。
看到這里,可能有人會(huì)問(wèn),阿里云還有自己的閉源模型,是在開源上遲疑了嗎?
但Qwen2這次全球第一的“出人頭地”,證明了阿里云做開源是認(rèn)真的!
隨著GPT-5發(fā)布時(shí)間一而再再而三地延后,現(xiàn)在的消息已經(jīng)推遲到明年年底了,大概率OpenAI還沒找到辦法讓GPT-5在GPT-4的基礎(chǔ)上大幅進(jìn)步。
而與此同時(shí),以Qwen2為代表的開源模型,表現(xiàn)正不斷地逼近閉源模型之首GPT-4。
將OpenAI變?yōu)镃loseAI,從非盈利變?yōu)橛腟am Altman,在看到Qwen2的表現(xiàn)時(shí),是否心中會(huì)生出一絲后悔呢?
發(fā)表評(píng)論
2024-07-02 20:01:53
2024-07-02 20:01:53
2024-07-02 20:01:53
2024-07-02 20:01:53
2024-07-02 20:01:53