允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
本周,CVPR 2024正在美國(guó)西雅圖拉開(kāi)序幕。今年CVPR論文投稿數(shù)再次創(chuàng)下新紀(jì)錄,可想而知本屆會(huì)議的火熱。
從研究主題來(lái)看,具身智能這一大熱點(diǎn)值得關(guān)注。
黃仁勛在COMPUTEX大會(huì)開(kāi)幕前夕的演講中預(yù)言:AI的下一個(gè)浪潮將是物理AI。
即那些理解物理定律的AI機(jī)器人,尤其是人形機(jī)器人最有可能適應(yīng)人類(lèi)所構(gòu)建的世界。
但隨之而來(lái)的問(wèn)題是,這背后需要海量的數(shù)據(jù)支持,尤其是人形機(jī)器人更為明顯。因?yàn)槿诵螜C(jī)器人面臨的場(chǎng)景多樣,而且這些場(chǎng)景的數(shù)據(jù)采集不容易。
甚至有業(yè)界人士認(rèn)為,當(dāng)前具身智能最大的瓶頸就是缺乏數(shù)據(jù)。
其實(shí)不止于機(jī)器人場(chǎng)景,無(wú)論是構(gòu)建具有強(qiáng)邏輯的AI模型,還是訓(xùn)練像GPT-4這樣的大語(yǔ)言模型,都離不開(kāi)大規(guī)模、高質(zhì)量的數(shù)據(jù)集。
例如,GPT-4的模型訓(xùn)練就動(dòng)用了大約13萬(wàn)億個(gè)tokens的數(shù)據(jù)集,這無(wú)疑是一個(gè)天文數(shù)字。
在這樣的數(shù)據(jù)需求下,我們自然會(huì)思考:
如此龐大的訓(xùn)練數(shù)據(jù)究竟從何而來(lái)?
AI行業(yè)數(shù)據(jù)的瓶頸,何解?
基于龐大數(shù)據(jù)和超高算力的“暴力美學(xué)”,是當(dāng)前生成式人工智能的核心打法,也是以O(shè)penAI為代表的一眾企業(yè)的發(fā)展關(guān)鍵。
簡(jiǎn)單來(lái)說(shuō),在同等條件下,喂的數(shù)據(jù)越多,人工智能就越強(qiáng)。
海量、優(yōu)質(zhì)的數(shù)據(jù)爭(zhēng)奪已經(jīng)成為國(guó)家和企業(yè)間的無(wú)聲戰(zhàn)場(chǎng)?;跀?shù)字技術(shù)形成的通用數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)壟斷,可能將成為這場(chǎng)數(shù)字拓荒當(dāng)中,后發(fā)者無(wú)法逾越的天塹。在一定程度上可以說(shuō),掌握數(shù)據(jù),就掌握了包括人工智能等眾多未來(lái)產(chǎn)業(yè)的主導(dǎo)權(quán)。
但是從真實(shí)世界獲取數(shù)據(jù)是一件困難重重的事。
Google在RT-1項(xiàng)目中的經(jīng)歷就是一個(gè)例證,在雄厚的資金和科研資源支持下,Google團(tuán)隊(duì)歷時(shí)17個(gè)月,僅收集到13萬(wàn)條覆蓋700多個(gè)任務(wù)的機(jī)器人數(shù)據(jù),這些數(shù)據(jù)的泛化能力遠(yuǎn)未達(dá)到預(yù)期。
由此可見(jiàn),獲取真實(shí)數(shù)據(jù)難度大、耗時(shí)長(zhǎng)、成本高,同時(shí)還存在現(xiàn)實(shí)世界數(shù)據(jù)采集在隱私合規(guī)和數(shù)據(jù)安全方面的挑戰(zhàn),難以滿(mǎn)足人工智能大模型訓(xùn)練的需求,當(dāng)前,“百模大戰(zhàn)”如火如荼,頭部企業(yè)競(jìng)相投身人工智能賽道,但有效數(shù)據(jù)不足,特別是高質(zhì)量數(shù)據(jù)短缺,部分領(lǐng)域封閉式的數(shù)據(jù)生態(tài)給人工智能發(fā)展帶來(lái)了掣肘。如何解決“數(shù)據(jù)瓶頸”是未來(lái)一段時(shí)期我們即將面臨——或已經(jīng)面臨的挑戰(zhàn)。
如何應(yīng)對(duì)挑戰(zhàn),目前一家利用計(jì)算機(jī)技術(shù)生成數(shù)據(jù)的服務(wù)商非常值得關(guān)注,它是群核科技(酷家樂(lè))創(chuàng)新實(shí)驗(yàn)室Koolab孵化出的Coohom Cloud。
群核科技是國(guó)內(nèi)最大的空間設(shè)計(jì)軟件平臺(tái),Coohom Cloud利用其龐大的室內(nèi)數(shù)據(jù)資源,結(jié)合高性能的渲染引擎和先進(jìn)的數(shù)據(jù)處理技術(shù),為AI行業(yè)“投喂”逼真且物理真實(shí)的2D、3D室內(nèi)數(shù)據(jù)集等產(chǎn)品和服務(wù)。
群核科技平臺(tái)每天會(huì)生成40萬(wàn)+3D設(shè)計(jì)方案,并沉淀了約3.6億個(gè)3D模型數(shù)據(jù),涵蓋家具、電器、生活用品等,在此基礎(chǔ)上,群核科技與包括英國(guó)帝國(guó)理工大學(xué)、美國(guó)南加州大學(xué)浙江大學(xué)等高校聯(lián)手推出了多種數(shù)據(jù)集,為室內(nèi)環(huán)境理解,3D重構(gòu),機(jī)器人交互等研究提供的強(qiáng)大數(shù)據(jù)基礎(chǔ)。
在2D圖片渲染技術(shù)上,Coohom Cloud利用自研渲染引擎,在多樣化的室內(nèi)場(chǎng)景中,通過(guò)調(diào)整相機(jī)參數(shù)、行徑軌跡、燈光條件等設(shè)置進(jìn)行圖片數(shù)據(jù)的采集,最終生成RGB、深度、語(yǔ)義、法向、點(diǎn)云等格式的2D數(shù)據(jù)集。這樣的數(shù)據(jù)輸出能力,使得Coohom Cloud每天能夠產(chǎn)出30萬(wàn)組2D數(shù)據(jù)集,為AI智能體的導(dǎo)航、視覺(jué)感知、環(huán)境理解等能力提供了充足的訓(xùn)練素材。
群核科技怎么解?低成本+高質(zhì)量
成本更低是數(shù)據(jù)獲取必須要的優(yōu)點(diǎn),包括獲取成本和經(jīng)濟(jì)成本,不少企業(yè)都在大量燒錢(qián)試圖通過(guò)海量數(shù)據(jù)來(lái)滿(mǎn)足AI模型訓(xùn)練需求,高額的投入和預(yù)期的不確定性,讓資金的持續(xù)投入陷入困境。
為了提供更高性?xún)r(jià)比的數(shù)據(jù)服務(wù)方案,Coohom Cloud通過(guò)自研數(shù)據(jù)引擎,這是一套專(zhuān)為挖掘數(shù)據(jù)轉(zhuǎn)化而設(shè)計(jì)的高效工具,可以高效的將設(shè)計(jì)平臺(tái)沉淀數(shù)據(jù)庫(kù)轉(zhuǎn)化為AI訓(xùn)練的燃料。它不僅能夠定制化輸出針對(duì)不同行業(yè)所需要的數(shù)據(jù)集,還能實(shí)現(xiàn)室內(nèi)場(chǎng)景的數(shù)字化生成,與NVIDIA Isaac Sim、Unreal Engine、Blender等專(zhuān)業(yè)仿真器和渲染引擎無(wú)縫對(duì)接。
所有流程全部利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn),用戶(hù)對(duì)于數(shù)據(jù)的使用會(huì)更加便捷和直觀(guān),無(wú)需再耗費(fèi)大量人力物力去采集獲取數(shù)據(jù),從而可以將更多的重心放在模型調(diào)優(yōu)上。
當(dāng)然,數(shù)據(jù)想要投入商用,除了數(shù)據(jù)量、成本優(yōu)勢(shì)以外,更需要保證的是高質(zhì)量,這將決定數(shù)據(jù)產(chǎn)業(yè)的未來(lái)發(fā)展面有多大。
在這一點(diǎn)上,Coohom Cloud是怎么考慮的呢?
1、物理性質(zhì)增強(qiáng)
在人形機(jī)器人的發(fā)展道路上,環(huán)境交互能力是其智能化的關(guān)鍵。比如自如開(kāi)關(guān)門(mén)、精準(zhǔn)取放物體、甚至疊放衣物等。
以NVIDIA Isaac Sim仿真平臺(tái)項(xiàng)目為例,通過(guò)創(chuàng)建一個(gè)包含物理屬性的逼真3D環(huán)境,讓機(jī)器人能夠在虛擬世界中學(xué)習(xí)如何與物體互動(dòng)、預(yù)測(cè)物理事件,甚至在虛擬世界中進(jìn)行探索和導(dǎo)航。在這樣的虛擬環(huán)境中,機(jī)器人可以進(jìn)行無(wú)數(shù)次的交互測(cè)試,無(wú)需擔(dān)心物理?yè)p傷或環(huán)境限制,從而大幅降低了訓(xùn)練成本,同時(shí)提高了訓(xùn)練的安全性和可重復(fù)性。
Coohom Cloud正是基于這樣的理念,利用Isaac Sim,Unreal Engine等為代表的的仿真平臺(tái),為機(jī)器人訓(xùn)練提供了定制化的場(chǎng)景和交互模型。這些數(shù)據(jù)不僅在視覺(jué)上逼真,更重要的是,它們具備真實(shí)的物理屬性——鉸鏈、滑軌等組件可以進(jìn)行旋轉(zhuǎn)和平移,同時(shí)模型還擁有真實(shí)的密度、摩擦力和彈性等物理狀態(tài)信息。這使得機(jī)器人能夠在物理真實(shí)的虛擬環(huán)境下,以極低的成本獲取大量的訓(xùn)練數(shù)據(jù),測(cè)試并優(yōu)化其性能。
2、場(chǎng)景環(huán)境增強(qiáng)
在AI的世界里,光線(xiàn)就像是那個(gè)決定成敗的細(xì)節(jié),特別是在視覺(jué)感知任務(wù)中,光線(xiàn)條件對(duì)AI的識(shí)別和分析能力起著至關(guān)重要的作用。
拿上文提到的InteriorNet來(lái)說(shuō),這一大規(guī)模多傳感器真實(shí)感室內(nèi)場(chǎng)景數(shù)據(jù)集,通過(guò)提供不同光照環(huán)境下的高真實(shí)感渲染圖像,展示了環(huán)境增強(qiáng)與多樣化在提升AI性能方面的重要性。服務(wù)類(lèi)機(jī)器人在面對(duì)室內(nèi)外光線(xiàn)變化時(shí),可能會(huì)遇到識(shí)別障礙,因此,擁有一個(gè)涵蓋廣泛光照條件的數(shù)據(jù)集對(duì)于訓(xùn)練AI以適應(yīng)各種環(huán)境至關(guān)重要。
Coohom Cloud為虛擬室內(nèi)場(chǎng)景中的每個(gè)燈源設(shè)定詳細(xì)參數(shù),實(shí)現(xiàn)個(gè)性化的燈光環(huán)境控制,讓機(jī)器人在不同的光照環(huán)境下都能“看”得清清楚楚,學(xué)得明明白白。
除了光照條件的多樣性,Coohom Cloud還通過(guò)Domain Randomization技術(shù),進(jìn)一步增強(qiáng)了場(chǎng)景環(huán)境的復(fù)雜性,就像是給機(jī)器人的訓(xùn)練場(chǎng)來(lái)了一場(chǎng)“大變身”。這項(xiàng)功能能夠根據(jù)不同的訓(xùn)練需求,靈活切換模型的表面材質(zhì),比如將大理石地面替換為木質(zhì)地板,調(diào)整不同反射效果,從而在虛擬環(huán)境中模擬出真實(shí)世界的多樣性和復(fù)雜性。讓機(jī)器人的訓(xùn)練更加貼近現(xiàn)實(shí),增強(qiáng)了它的適應(yīng)性和泛化能力。
3、高效標(biāo)注系統(tǒng)
AI領(lǐng)域中的數(shù)據(jù)標(biāo)注是模型性能的關(guān)鍵因素,但傳統(tǒng)的人工標(biāo)注方式勞動(dòng)密集且耗時(shí)。
Coohom Cloud利用先進(jìn)的合成數(shù)據(jù)生成技術(shù),可以根據(jù)研究者需求定制化分割和標(biāo)注數(shù)據(jù)。例如,處理臥室場(chǎng)景的3D模型時(shí),系統(tǒng)能細(xì)分為床、枕頭、毛毯等基礎(chǔ)要素,并生成精準(zhǔn)語(yǔ)義標(biāo)簽,提高數(shù)據(jù)準(zhǔn)確性并滿(mǎn)足需求,從而提升模型認(rèn)知精度。這種方式不僅減少了人工標(biāo)注工作量,也使研究者能更專(zhuān)注于模型創(chuàng)新和優(yōu)化,提高數(shù)據(jù)處理效率,為AI技術(shù)發(fā)展注入新活力。
此外,在隱私、安全法規(guī)等問(wèn)題上,Coohom Cloud采取的合成數(shù)據(jù)安全策略亦可以避免接觸任何真實(shí)用戶(hù)數(shù)據(jù),安全審核機(jī)制用于檢查數(shù)據(jù)是否合規(guī),并針對(duì)交付使用的數(shù)據(jù)進(jìn)行相關(guān)授權(quán)管理,從而確保數(shù)據(jù)的安全使用。在生態(tài)鏈上,Coohom Cloud也串聯(lián)了優(yōu)秀的設(shè)計(jì)者和研究者,針對(duì)AI需求,開(kāi)發(fā)更高效的工具來(lái)促進(jìn)設(shè)計(jì)生態(tài)向AI前沿融合。
產(chǎn)業(yè)級(jí)應(yīng)用時(shí)刻,正在到來(lái)
不論是諸多機(jī)構(gòu)的預(yù)測(cè)數(shù)據(jù),還是資本機(jī)構(gòu)的”投注“,亦或是產(chǎn)業(yè)側(cè)的實(shí)際應(yīng)用,都可以看出數(shù)據(jù)服務(wù)已經(jīng)從科研場(chǎng)景逐步走向市場(chǎng)化。也有越來(lái)越多玩家選擇加入。
不過(guò)在人工智能領(lǐng)域,數(shù)據(jù)的質(zhì)量和應(yīng)用的實(shí)際效果比盲目堆砌更為關(guān)鍵。那么,Coohom Cloud的海量室內(nèi)數(shù)據(jù)集是如何落地到不同的行業(yè)場(chǎng)景中的呢?
2022年底,群核科技KooLab與英特爾實(shí)驗(yàn)室、西班牙計(jì)算機(jī)視覺(jué)中心以及慕尼黑工業(yè)大學(xué)共同打磨的SPEAR智能仿真平臺(tái),面向開(kāi)發(fā)者全面開(kāi)放,幫助開(kāi)發(fā)人員加快對(duì)不同智能機(jī)器人的訓(xùn)練和驗(yàn)證。
在整個(gè)項(xiàng)目中,Coohom Cloud團(tuán)隊(duì)提供超300個(gè)場(chǎng)景、超17000個(gè)模型,為仿真器的研究提供了數(shù)據(jù)上的神助攻,讓研究者能便捷的在虛擬環(huán)境中測(cè)試機(jī)器人性能。
英特爾首席科學(xué)家Mike Roberts贊嘆Coohom Cloud的高質(zhì)量數(shù)據(jù):
不僅加速了具身智能研究,還為仿真器項(xiàng)目的落地提供了全方位的數(shù)據(jù)保障。
再以清潔機(jī)器人產(chǎn)品為例,在室內(nèi)為主的業(yè)務(wù)場(chǎng)景下,積累邊緣場(chǎng)景數(shù)據(jù)需要大量時(shí)間,這會(huì)直接影響到C端用戶(hù)的產(chǎn)品體驗(yàn),因此解決機(jī)器人場(chǎng)景邊緣場(chǎng)景問(wèn)題成了產(chǎn)品提高競(jìng)爭(zhēng)力的關(guān)鍵。
清潔機(jī)器人的邊緣場(chǎng)景主要包含一些難以收集的寵物糞便,果殼碎屑等障礙物,特殊狹窄的過(guò)道、高反光的地板玻璃以及強(qiáng)暗光環(huán)境下的數(shù)據(jù)等,以前為了采集數(shù)據(jù),廠(chǎng)家得組建個(gè)數(shù)十人團(tuán)隊(duì),耗時(shí)數(shù)月,還得外包給第三方,整個(gè)過(guò)程繁瑣又燒錢(qián),數(shù)據(jù)質(zhì)量還不一定達(dá)標(biāo)。
Coohom Cloud的方案,讓企業(yè)從模型素材到語(yǔ)義標(biāo)注,再到數(shù)據(jù)結(jié)構(gòu)處理全流程把控,為用戶(hù)關(guān)注的邊緣場(chǎng)景,專(zhuān)門(mén)打造特殊的室內(nèi)虛擬環(huán)境,并通過(guò)調(diào)整光照參數(shù),實(shí)現(xiàn)場(chǎng)景多樣性衍生,在45個(gè)工作日即生成了數(shù)萬(wàn)組高質(zhì)量的3D模型數(shù)據(jù)集和百萬(wàn)組精細(xì)化圖片數(shù)據(jù),數(shù)據(jù)交付即可用,幫助企業(yè)大幅減少數(shù)據(jù)側(cè)投入,提高AI項(xiàng)目進(jìn)度。
當(dāng)AI大模型和人形機(jī)器人成為科技界的熱議話(huà)題,數(shù)據(jù)已然成為了這個(gè)時(shí)代的核心資產(chǎn)。Coohom Cloud正以其強(qiáng)大的數(shù)據(jù)生成技術(shù),為AI的多樣化應(yīng)用需求提供支撐,推動(dòng)行業(yè)向更廣泛的智能化發(fā)展邁進(jìn)。
One More Thing
我們期待著Coohom Cloud在未來(lái)能夠持續(xù)深化其技術(shù),不斷探索新的領(lǐng)域。
而就在6月17日至6月21日,Coohom Cloud團(tuán)隊(duì)將在西雅圖舉辦的2024年CVPR會(huì)議上,展位號(hào)1637,展示他們的最新成果。如果你對(duì)數(shù)據(jù)服務(wù)充滿(mǎn)興趣,不如親臨現(xiàn)場(chǎng)與Coohom Cloud團(tuán)隊(duì)深入交流,共同見(jiàn)證AI數(shù)據(jù)服務(wù)的未來(lái)。
官網(wǎng)主頁(yè):www.coohomcloud.com
聯(lián)系方式:[email protected]
發(fā)表評(píng)論
2024-06-19 20:12:18