6月27日,科大訊飛發(fā)布訊飛星火大模型V4.0及相關(guān)落地應(yīng)用。該公司董事長(zhǎng)劉慶峰表示,訊飛星火V4.0已經(jīng)實(shí)現(xiàn)了與GPT-4 Turbo的對(duì)標(biāo),在文本生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)等能力上都已經(jīng)實(shí)現(xiàn)超越,但在代碼和多模態(tài)能力上還有差距。
在劉慶峰看來(lái),在推動(dòng)源頭智能體開(kāi)發(fā)到行業(yè)生態(tài)的過(guò)程中,特別重要的是,一定要做到底座技術(shù)的完全自主可控,“否則可能我們就把大樓建在別人的院子里,建在沙灘上,隨時(shí)會(huì)倒塌,要真正做到軟硬件一體化,才能更深度地落地?!?/P>
圖源:觀察者網(wǎng)
“去年10月17日,英偉達(dá)因?yàn)槊绹?guó)商務(wù)部的要求,對(duì)中國(guó)所有能訓(xùn)練大模型的智能算力全面斷供。就在6月25日,OpenAI也正式通知將從7月9日開(kāi)始終止所有來(lái)自中國(guó)的API申請(qǐng)。在這個(gè)背景下,熱熱鬧鬧、風(fēng)起云涌的通用人工智能浪潮,到底有沒(méi)有自主可控的國(guó)產(chǎn)底座能力做支撐,這決定了我們?cè)谶@條路上到底能走多遠(yuǎn)?!眲c峰說(shuō)道。
他在會(huì)上透露,去年10月24日,科大訊飛聯(lián)合華為在安徽發(fā)布了中國(guó)首個(gè)國(guó)產(chǎn)萬(wàn)卡算力集群,這是中國(guó)第一個(gè)能訓(xùn)千億以上浮點(diǎn)參數(shù)大模型的硬件平臺(tái)。在這個(gè)硬件平臺(tái)上,訊飛星火是中國(guó)第一個(gè)基于國(guó)產(chǎn)算力訓(xùn)練出來(lái)的全民開(kāi)放的大模型。
萬(wàn)卡集群,是指由一萬(wàn)張及以上的計(jì)算加速卡(如GPU、TPU或其他專用AI加速芯片)組成的集群式的高性能計(jì)算系統(tǒng),主要用來(lái)訓(xùn)練數(shù)據(jù)量日益龐大的通用大模型。這種集群充分整合高性能GPU計(jì)算、高性能存儲(chǔ)以及網(wǎng)絡(luò)、智算平臺(tái)等關(guān)鍵技術(shù),可支持千億級(jí)甚至萬(wàn)億級(jí)參數(shù)規(guī)模的大模型訓(xùn)練,有助于大幅壓縮訓(xùn)練時(shí)間,以實(shí)現(xiàn)模型能力的快速迭代升級(jí)。
那么在這個(gè)基礎(chǔ)上,訊飛星火V4.0到底到了什么水平?劉慶峰表示,訊飛星火V4.0在中文領(lǐng)域?qū)崿F(xiàn)了對(duì)標(biāo)GPT-4 Turbo,在絕大部分是英文的12項(xiàng)主流測(cè)試集中,訊飛星火V4.0有8項(xiàng)實(shí)現(xiàn)了超越,“這個(gè)數(shù)據(jù)大家可以直接調(diào)用我們的API自己去測(cè)。”
圖源:觀察者網(wǎng)
但他也提到,星火大模型V4.0與GPT-4 Turbo在代碼和多模態(tài)能力上還有差距。
“今年1月,GPT-4 Turbo程序員測(cè)試大概在80分,現(xiàn)在86分,也在快速迭代和進(jìn)步。我們預(yù)計(jì)在今年8月份,訊飛星火會(huì)達(dá)到現(xiàn)在86分以上的水平。多模態(tài)能力還有所差距,是因?yàn)槲覀儺?dāng)前在文生視頻上還沒(méi)有算力,也不是下一步的核心重點(diǎn),但是有生態(tài)伙伴一起做?!眲c峰說(shuō)道。
去年9月,OpenAI發(fā)布GPT-4V,在圖文識(shí)別和理解分析能力方面上了一個(gè)大臺(tái)階,11月推出語(yǔ)音識(shí)別大模型Whisper,今年2月又推出了文生視頻大模型Sora,5月推出GPT-4o……
在劉慶峰看來(lái)。這些實(shí)際上還是依托GPT-4的底層通用大模型能力,“以Sora為例,并不是外界所說(shuō)的其‘對(duì)物理世界的認(rèn)知進(jìn)一步加強(qiáng)了’,而是通過(guò)GPT-4V的理解能力和生成能力,結(jié)合GPT-4V的‘打標(biāo)簽’能力、傳統(tǒng)的文生視頻能力,用GPT方法做了重寫,從而實(shí)現(xiàn)了Sora的能力。與大模型在醫(yī)療領(lǐng)域做一個(gè)醫(yī)療專用模型、在教育領(lǐng)域做一個(gè)教育專用模型并沒(méi)有本質(zhì)差別,只要有算力、有數(shù)據(jù),這些都能實(shí)現(xiàn)?!?/P>
這次基于星火大模型能力,訊飛星火APP/Desk全新升級(jí),發(fā)布“個(gè)人空間”;面向?qū)I(yè)領(lǐng)域的個(gè)性化應(yīng)用,該公司升級(jí)訊飛曉醫(yī)APP,上線個(gè)人數(shù)字健康空間;業(yè)界首發(fā)星火智能批閱機(jī),“AI助教”助力老師減負(fù)增效、因材施教;訊飛AI學(xué)習(xí)機(jī)升級(jí) 1對(duì)1答疑輔導(dǎo)功能。
圖源:觀察者網(wǎng)
面向萬(wàn)物互聯(lián)時(shí)代,科大訊飛星火語(yǔ)音大模型發(fā)布74個(gè)語(yǔ)種/方言免切換對(duì)話,破解強(qiáng)干擾場(chǎng)景下語(yǔ)音識(shí)別難題,發(fā)布國(guó)際領(lǐng)先的極復(fù)雜場(chǎng)景語(yǔ)音轉(zhuǎn)寫技術(shù)等,此外該公司還正式發(fā)布星火企業(yè)智能體平臺(tái),并推出星火商機(jī)助手、星火評(píng)標(biāo)助手等典型智能體案例。
但值得注意的是,星火大模型V4.0對(duì)標(biāo)的GPT-4 Turbo發(fā)布于去年11月,距今已近9個(gè)月。
劉慶峰也坦言,我們一定要科學(xué)理性地認(rèn)識(shí)到中美科技的綜合差距?!敖裉煳覀冋f(shuō)訊飛星火V4.0對(duì)標(biāo)GPT-4 turbo是全方位對(duì)標(biāo)。但是我們同時(shí)要看到,一旦GPT-5發(fā)布,因?yàn)樗哪P统叽绺?、?xùn)練時(shí)間更長(zhǎng)、數(shù)據(jù)更多,又會(huì)把這個(gè)差距給拉開(kāi),甚至拉到一年以上?!?/P>
“在中國(guó),一定要考慮用更小的算力、更小的數(shù)據(jù),做出更優(yōu)質(zhì)的落地成果,這樣才能夠真正地在未來(lái)幾年打贏這一場(chǎng)人工智能紅利賦能產(chǎn)業(yè)的‘仗’,但同時(shí),整個(gè)社會(huì)還要加強(qiáng)源頭技術(shù)創(chuàng)新的氛圍,一定要看到中美之間的差距,才能夠迎頭趕上,絕不能盲目自信,盲目地認(rèn)為我們都已經(jīng)超越了。差距還是很大的,需要大家有充分清晰而又理性地認(rèn)知。 ”他表示。
劉慶峰直言,“今天人工智能技術(shù)的發(fā)展絕不是一家公司可以把所有事情都做完的,在這個(gè)時(shí)代,做帝國(guó)注定要衰落,只有生態(tài)才能生生不息;必須是自主可控的繁榮生態(tài),才有中國(guó)通用人工智能大未來(lái),我們要打造新的生態(tài),包括源頭技術(shù)生態(tài)、應(yīng)用生態(tài)還有行業(yè)生態(tài)。”
“我們既要認(rèn)識(shí)到差距,又要有充分的信心,要能夠科學(xué)理性地給出從源頭技術(shù)、到生態(tài)、到產(chǎn)業(yè)應(yīng)用落地的一整套打法,要以長(zhǎng)期主義來(lái)打造真正自主可控的AI產(chǎn)業(yè)生態(tài)?!彼f(shuō)道。
根據(jù)大會(huì)信息,從今年1月30日訊飛星火V3.5發(fā)布以來(lái),大模型開(kāi)發(fā)者團(tuán)隊(duì)目前已經(jīng)增長(zhǎng)到702萬(wàn),海外開(kāi)發(fā)者數(shù)量從34萬(wàn)增加到40萬(wàn),大模型的直接相關(guān)開(kāi)發(fā)者達(dá)到了57萬(wàn)。
發(fā)表評(píng)論
2024-06-30 13:17:24
2024-06-30 13:17:24
2024-06-30 13:17:24
2024-06-30 13:17:24
2024-06-30 13:17:24