藍(lán)鯨新聞7月6日訊(記者 湯詩韻)今年2月,OpenAI的首款文生視頻模型Sora橫空出世。樣片里大膽的一鏡到底和驚人的人物場景一致性轟動了整個行業(yè),視頻生成隨之成為今年最熱的技術(shù)與賽道之一。在國內(nèi),AI視頻領(lǐng)域也將迎來寒武紀(jì)大爆發(fā)。
AI視頻生成大爆發(fā), 大量創(chuàng)作者跟風(fēng)整活
視頻生成技術(shù)及應(yīng)用是今年世界人工智能大會(WAIC)最受業(yè)內(nèi)外關(guān)注的話題之一。昨日舉行的論壇上,有嘉賓提及近日全網(wǎng)創(chuàng)作者運用AI視頻整活的風(fēng)潮。
你常常可以刷到甄嬛流淚躺在床上生吞臘肉,劉華強和賣瓜攤販化干戈為擁抱,梗圖中的地鐵老人一口吞下手機。這些刻意搞怪的創(chuàng)作都是依靠各類AI視頻生成模型實現(xiàn)的。
剛剛過去的6月,一眾AI視頻生成模型密集涌現(xiàn)??焓挚伸`、Luma AI以及Runway的Gen-3 Alpha等爆款模型接連發(fā)布,引發(fā)現(xiàn)象級圍觀。
其中快手的AI視頻生成模型可靈被稱作中國版Sora。該模型視頻生成時長直接趕超Sora達到120秒,目前已開放圖生視頻、視頻續(xù)寫、鏡頭控制等功能。
可靈生成的兔子看報紙/截圖
在內(nèi)測用戶上傳的生成視頻中,可靈的表現(xiàn)令人驚喜,它能夠生成大幅度的合理運動,并模擬物理世界特性等。獵豹移動董事長兼CEO傅盛公開測評稱,“我認(rèn)為這個產(chǎn)品今天在我們能使用的范疇內(nèi),就是全世界第一,這也是國產(chǎn)人工智能領(lǐng)域的又一項重大突破”。
今年以前,文生視頻是多模態(tài)AIGC的圣杯,優(yōu)化迭代速度較慢。而僅僅過去一年,AI生成的吃面條類視頻已從鬼畜素材級別變得流暢自然。
視頻AI生成漸成熱門賽道。美圖公司集團高級副總裁陳劍毅在WAIC論壇上表示,讓照片動起來的玩法,在不遠(yuǎn)的將來大概半年到一年內(nèi)肯定會成為所有社交平臺的標(biāo)配能力,和現(xiàn)在所有平臺都有濾鏡、美顏能力是一樣的。
AI視頻發(fā)展到什么程度了?宣傳很好看,實際待考驗
現(xiàn)階段的視頻生成模型并不完美,常見缺陷大多表現(xiàn)在可控性差上。比如人物的形象及視覺風(fēng)格、角色場景在生成輸出時不能保持穩(wěn)定一致。運動軌跡、光影效果、口語自然度、音效可控性等都有待提升。
上海交通大學(xué)電子系教授倪冰冰在昨日的論壇中指出,我們現(xiàn)在生成類算法包括視頻、圖像、三維的東西,會遇到很多結(jié)構(gòu)性的問題和細(xì)節(jié)性問題。比如通常會多生長出一樣?xùn)|西或者少一樣?xùn)|西,或者手穿模到人身體里,有時候衣服上的LOGO變得很模糊了。
其直言,AI文生視頻技術(shù)可以有效提高生產(chǎn)力,但若和成熟的影視制作工業(yè)相比,算是以卵擊石。
一些大模型生成的體操表演視頻截圖
陳劍毅同樣預(yù)測道,當(dāng)下的AI視頻生成技術(shù)還在早期階段,類似電影行業(yè)1分鐘黑白電影的起點。該技術(shù)會經(jīng)歷快速演變,大概3—5年就能走完電影技術(shù)百年發(fā)展史。目前來看,文生視頻有望在網(wǎng)文小說和教學(xué)內(nèi)容領(lǐng)域率先落地。
井英科技CEO朱江透露,他們之前花三年時間自主研發(fā)了一個視頻生成模型,落地場景就是用AI生成短劇視頻。日前,井英科技的AI短劇應(yīng)用Reel.AI此前已在海外市場發(fā)布,其中部分短劇的主角是AI生成和配音的白人演員。此前藍(lán)鯨新聞曾報道,海外短劇制作成本較國內(nèi)翻倍,單劇或需要15萬美元,AI生成或是控制成本的方式之一。
關(guān)于該項技術(shù)的應(yīng)用,還有一個更現(xiàn)實的難題。AI生成內(nèi)容的關(guān)鍵吸引力在于新奇,那么正如陳劍毅所說,“AI類視頻很容易看膩,短期內(nèi)不太存在新的平臺級產(chǎn)品的機會。”
因此AI生成視頻終究是一種工具,內(nèi)容才是競爭的根本。
盛趣游戲技術(shù)中心AI負(fù)責(zé)人李鋒舉例稱,文生圖、文生視頻等技術(shù)可能會提升游戲立項和開發(fā)的效率,比如有助于游戲概念表述,方便策劃、美術(shù)和程序之間交流理解。但另一方面,玩家口味多變,AI會生成哪些創(chuàng)意、如何及時修改創(chuàng)意才是開發(fā)者更看重的部分。
大廠扎堆入局,但商業(yè)化問題依舊難解
Sora引爆賽道后,國內(nèi)互聯(lián)網(wǎng)大廠加速布局視頻生成領(lǐng)域。
今年2月,抖音原CEO張楠轉(zhuǎn)任剪映負(fù)責(zé)人,外界認(rèn)為這場調(diào)任體現(xiàn)了字節(jié)跳動在文生視頻大模型上的期望。3個月后,字節(jié)旗下AI創(chuàng)作工具即夢(原名Dreamina)上線AI作圖和視頻生成功能。伴隨快手可靈上線,抖快兩家已在AI領(lǐng)域正面對壘。此外,阿里巴巴達摩院、百度、騰訊、美圖等大廠均已加入文生視頻混戰(zhàn)。
在今年的人工智能大會上,如何商業(yè)化是頻頻被討論的話題。業(yè)內(nèi)認(rèn)為AI視頻模型商業(yè)化至少需要解決兩個問題,一是前文曾提及的技術(shù)層面,其二則是高昂的成本。
據(jù)垂媒量子位援引專家預(yù)估,OpenAI推出的Sora在訓(xùn)練環(huán)節(jié)大約需要在4200-10500張NVIDIA H100上訓(xùn)練1個月,并且當(dāng)模型生成到推理環(huán)節(jié)以后,計算成本還將迅速超過訓(xùn)練環(huán)節(jié)。因此其顯然不太可能依靠文生圖產(chǎn)品同等水平的會員費覆蓋成本。
倪冰冰教授認(rèn)為:生成式人工智能目前階段性的成功是以算力與數(shù)據(jù)的過度消耗為代價的,因此未來我們需要有一些新的架構(gòu)、新的計算方式或者新的底層技術(shù)來支撐更加優(yōu)質(zhì)高效的媒體新質(zhì)生產(chǎn)力。
關(guān)于未來,可能沒人說得準(zhǔn)。井英科技CEO朱江表示,我們把這一代的AI生成式時代類比成寒武紀(jì)生命大爆發(fā)的時候。在當(dāng)時,其實很難預(yù)測哪一個物種未來會生存下去。比如哪一類生物突然進化出了眼睛,可能取得了階段性優(yōu)勢。
“但其中有兩點比較確定。”朱江總結(jié)稱:第一,在新的生成式時代保持Tire1技術(shù)的水準(zhǔn)和理解;第二,入局很重要,關(guān)鍵要關(guān)注機會在哪里、客戶需求是什么,想賺錢首先得留在牌桌上。
發(fā)表評論