允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
本周,CVPR 2024正在美國西雅圖拉開序幕。今年CVPR論文投稿數(shù)再次創(chuàng)下新紀錄,可想而知本屆會議的火熱。
從研究主題來看,具身智能這一大熱點值得關(guān)注。
黃仁勛在COMPUTEX大會開幕前夕的演講中預言:AI的下一個浪潮將是物理AI。
即那些理解物理定律的AI機器人,尤其是人形機器人最有可能適應人類所構(gòu)建的世界。
但隨之而來的問題是,這背后需要海量的數(shù)據(jù)支持,尤其是人形機器人更為明顯。因為人形機器人面臨的場景多樣,而且這些場景的數(shù)據(jù)采集不容易。
甚至有業(yè)界人士認為,當前具身智能最大的瓶頸就是缺乏數(shù)據(jù)。
其實不止于機器人場景,無論是構(gòu)建具有強邏輯的AI模型,還是訓練像GPT-4這樣的大語言模型,都離不開大規(guī)模、高質(zhì)量的數(shù)據(jù)集。
例如,GPT-4的模型訓練就動用了大約13萬億個tokens的數(shù)據(jù)集,這無疑是一個天文數(shù)字。
在這樣的數(shù)據(jù)需求下,我們自然會思考:
如此龐大的訓練數(shù)據(jù)究竟從何而來?
AI行業(yè)數(shù)據(jù)的瓶頸,何解?
基于龐大數(shù)據(jù)和超高算力的“暴力美學”,是當前生成式人工智能的核心打法,也是以O(shè)penAI為代表的一眾企業(yè)的發(fā)展關(guān)鍵。
簡單來說,在同等條件下,喂的數(shù)據(jù)越多,人工智能就越強。
海量、優(yōu)質(zhì)的數(shù)據(jù)爭奪已經(jīng)成為國家和企業(yè)間的無聲戰(zhàn)場。基于數(shù)字技術(shù)形成的通用數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)壟斷,可能將成為這場數(shù)字拓荒當中,后發(fā)者無法逾越的天塹。在一定程度上可以說,掌握數(shù)據(jù),就掌握了包括人工智能等眾多未來產(chǎn)業(yè)的主導權(quán)。
但是從真實世界獲取數(shù)據(jù)是一件困難重重的事。
Google在RT-1項目中的經(jīng)歷就是一個例證,在雄厚的資金和科研資源支持下,Google團隊歷時17個月,僅收集到13萬條覆蓋700多個任務的機器人數(shù)據(jù),這些數(shù)據(jù)的泛化能力遠未達到預期。
由此可見,獲取真實數(shù)據(jù)難度大、耗時長、成本高,同時還存在現(xiàn)實世界數(shù)據(jù)采集在隱私合規(guī)和數(shù)據(jù)安全方面的挑戰(zhàn),難以滿足人工智能大模型訓練的需求,當前,“百模大戰(zhàn)”如火如荼,頭部企業(yè)競相投身人工智能賽道,但有效數(shù)據(jù)不足,特別是高質(zhì)量數(shù)據(jù)短缺,部分領(lǐng)域封閉式的數(shù)據(jù)生態(tài)給人工智能發(fā)展帶來了掣肘。如何解決“數(shù)據(jù)瓶頸”是未來一段時期我們即將面臨——或已經(jīng)面臨的挑戰(zhàn)。
如何應對挑戰(zhàn),目前一家利用計算機技術(shù)生成數(shù)據(jù)的服務商非常值得關(guān)注,它是群核科技(酷家樂)創(chuàng)新實驗室Koolab孵化出的Coohom Cloud。
群核科技是國內(nèi)最大的空間設(shè)計軟件平臺,Coohom Cloud利用其龐大的室內(nèi)數(shù)據(jù)資源,結(jié)合高性能的渲染引擎和先進的數(shù)據(jù)處理技術(shù),為AI行業(yè)“投喂”逼真且物理真實的2D、3D室內(nèi)數(shù)據(jù)集等產(chǎn)品和服務。
群核科技平臺每天會生成40萬+3D設(shè)計方案,并沉淀了約3.6億個3D模型數(shù)據(jù),涵蓋家具、電器、生活用品等,在此基礎(chǔ)上,群核科技與包括英國帝國理工大學、美國南加州大學浙江大學等高校聯(lián)手推出了多種數(shù)據(jù)集,為室內(nèi)環(huán)境理解,3D重構(gòu),機器人交互等研究提供的強大數(shù)據(jù)基礎(chǔ)。
在2D圖片渲染技術(shù)上,Coohom Cloud利用自研渲染引擎,在多樣化的室內(nèi)場景中,通過調(diào)整相機參數(shù)、行徑軌跡、燈光條件等設(shè)置進行圖片數(shù)據(jù)的采集,最終生成RGB、深度、語義、法向、點云等格式的2D數(shù)據(jù)集。這樣的數(shù)據(jù)輸出能力,使得Coohom Cloud每天能夠產(chǎn)出30萬組2D數(shù)據(jù)集,為AI智能體的導航、視覺感知、環(huán)境理解等能力提供了充足的訓練素材。
群核科技怎么解?低成本+高質(zhì)量
成本更低是數(shù)據(jù)獲取必須要的優(yōu)點,包括獲取成本和經(jīng)濟成本,不少企業(yè)都在大量燒錢試圖通過海量數(shù)據(jù)來滿足AI模型訓練需求,高額的投入和預期的不確定性,讓資金的持續(xù)投入陷入困境。
為了提供更高性價比的數(shù)據(jù)服務方案,Coohom Cloud通過自研數(shù)據(jù)引擎,這是一套專為挖掘數(shù)據(jù)轉(zhuǎn)化而設(shè)計的高效工具,可以高效的將設(shè)計平臺沉淀數(shù)據(jù)庫轉(zhuǎn)化為AI訓練的燃料。它不僅能夠定制化輸出針對不同行業(yè)所需要的數(shù)據(jù)集,還能實現(xiàn)室內(nèi)場景的數(shù)字化生成,與NVIDIA Isaac Sim、Unreal Engine、Blender等專業(yè)仿真器和渲染引擎無縫對接。
所有流程全部利用計算機技術(shù)實現(xiàn),用戶對于數(shù)據(jù)的使用會更加便捷和直觀,無需再耗費大量人力物力去采集獲取數(shù)據(jù),從而可以將更多的重心放在模型調(diào)優(yōu)上。
當然,數(shù)據(jù)想要投入商用,除了數(shù)據(jù)量、成本優(yōu)勢以外,更需要保證的是高質(zhì)量,這將決定數(shù)據(jù)產(chǎn)業(yè)的未來發(fā)展面有多大。
在這一點上,Coohom Cloud是怎么考慮的呢?
1、物理性質(zhì)增強
在人形機器人的發(fā)展道路上,環(huán)境交互能力是其智能化的關(guān)鍵。比如自如開關(guān)門、精準取放物體、甚至疊放衣物等。
以NVIDIA Isaac Sim仿真平臺項目為例,通過創(chuàng)建一個包含物理屬性的逼真3D環(huán)境,讓機器人能夠在虛擬世界中學習如何與物體互動、預測物理事件,甚至在虛擬世界中進行探索和導航。在這樣的虛擬環(huán)境中,機器人可以進行無數(shù)次的交互測試,無需擔心物理損傷或環(huán)境限制,從而大幅降低了訓練成本,同時提高了訓練的安全性和可重復性。
Coohom Cloud正是基于這樣的理念,利用Isaac Sim,Unreal Engine等為代表的的仿真平臺,為機器人訓練提供了定制化的場景和交互模型。這些數(shù)據(jù)不僅在視覺上逼真,更重要的是,它們具備真實的物理屬性——鉸鏈、滑軌等組件可以進行旋轉(zhuǎn)和平移,同時模型還擁有真實的密度、摩擦力和彈性等物理狀態(tài)信息。這使得機器人能夠在物理真實的虛擬環(huán)境下,以極低的成本獲取大量的訓練數(shù)據(jù),測試并優(yōu)化其性能。
2、場景環(huán)境增強
在AI的世界里,光線就像是那個決定成敗的細節(jié),特別是在視覺感知任務中,光線條件對AI的識別和分析能力起著至關(guān)重要的作用。
拿上文提到的InteriorNet來說,這一大規(guī)模多傳感器真實感室內(nèi)場景數(shù)據(jù)集,通過提供不同光照環(huán)境下的高真實感渲染圖像,展示了環(huán)境增強與多樣化在提升AI性能方面的重要性。服務類機器人在面對室內(nèi)外光線變化時,可能會遇到識別障礙,因此,擁有一個涵蓋廣泛光照條件的數(shù)據(jù)集對于訓練AI以適應各種環(huán)境至關(guān)重要。
Coohom Cloud為虛擬室內(nèi)場景中的每個燈源設(shè)定詳細參數(shù),實現(xiàn)個性化的燈光環(huán)境控制,讓機器人在不同的光照環(huán)境下都能“看”得清清楚楚,學得明明白白。
除了光照條件的多樣性,Coohom Cloud還通過Domain Randomization技術(shù),進一步增強了場景環(huán)境的復雜性,就像是給機器人的訓練場來了一場“大變身”。這項功能能夠根據(jù)不同的訓練需求,靈活切換模型的表面材質(zhì),比如將大理石地面替換為木質(zhì)地板,調(diào)整不同反射效果,從而在虛擬環(huán)境中模擬出真實世界的多樣性和復雜性。讓機器人的訓練更加貼近現(xiàn)實,增強了它的適應性和泛化能力。
3、高效標注系統(tǒng)
AI領(lǐng)域中的數(shù)據(jù)標注是模型性能的關(guān)鍵因素,但傳統(tǒng)的人工標注方式勞動密集且耗時。
Coohom Cloud利用先進的合成數(shù)據(jù)生成技術(shù),可以根據(jù)研究者需求定制化分割和標注數(shù)據(jù)。例如,處理臥室場景的3D模型時,系統(tǒng)能細分為床、枕頭、毛毯等基礎(chǔ)要素,并生成精準語義標簽,提高數(shù)據(jù)準確性并滿足需求,從而提升模型認知精度。這種方式不僅減少了人工標注工作量,也使研究者能更專注于模型創(chuàng)新和優(yōu)化,提高數(shù)據(jù)處理效率,為AI技術(shù)發(fā)展注入新活力。
此外,在隱私、安全法規(guī)等問題上,Coohom Cloud采取的合成數(shù)據(jù)安全策略亦可以避免接觸任何真實用戶數(shù)據(jù),安全審核機制用于檢查數(shù)據(jù)是否合規(guī),并針對交付使用的數(shù)據(jù)進行相關(guān)授權(quán)管理,從而確保數(shù)據(jù)的安全使用。在生態(tài)鏈上,Coohom Cloud也串聯(lián)了優(yōu)秀的設(shè)計者和研究者,針對AI需求,開發(fā)更高效的工具來促進設(shè)計生態(tài)向AI前沿融合。
產(chǎn)業(yè)級應用時刻,正在到來
不論是諸多機構(gòu)的預測數(shù)據(jù),還是資本機構(gòu)的”投注“,亦或是產(chǎn)業(yè)側(cè)的實際應用,都可以看出數(shù)據(jù)服務已經(jīng)從科研場景逐步走向市場化。也有越來越多玩家選擇加入。
不過在人工智能領(lǐng)域,數(shù)據(jù)的質(zhì)量和應用的實際效果比盲目堆砌更為關(guān)鍵。那么,Coohom Cloud的海量室內(nèi)數(shù)據(jù)集是如何落地到不同的行業(yè)場景中的呢?
2022年底,群核科技KooLab與英特爾實驗室、西班牙計算機視覺中心以及慕尼黑工業(yè)大學共同打磨的SPEAR智能仿真平臺,面向開發(fā)者全面開放,幫助開發(fā)人員加快對不同智能機器人的訓練和驗證。
在整個項目中,Coohom Cloud團隊提供超300個場景、超17000個模型,為仿真器的研究提供了數(shù)據(jù)上的神助攻,讓研究者能便捷的在虛擬環(huán)境中測試機器人性能。
英特爾首席科學家Mike Roberts贊嘆Coohom Cloud的高質(zhì)量數(shù)據(jù):
不僅加速了具身智能研究,還為仿真器項目的落地提供了全方位的數(shù)據(jù)保障。
再以清潔機器人產(chǎn)品為例,在室內(nèi)為主的業(yè)務場景下,積累邊緣場景數(shù)據(jù)需要大量時間,這會直接影響到C端用戶的產(chǎn)品體驗,因此解決機器人場景邊緣場景問題成了產(chǎn)品提高競爭力的關(guān)鍵。
清潔機器人的邊緣場景主要包含一些難以收集的寵物糞便,果殼碎屑等障礙物,特殊狹窄的過道、高反光的地板玻璃以及強暗光環(huán)境下的數(shù)據(jù)等,以前為了采集數(shù)據(jù),廠家得組建個數(shù)十人團隊,耗時數(shù)月,還得外包給第三方,整個過程繁瑣又燒錢,數(shù)據(jù)質(zhì)量還不一定達標。
Coohom Cloud的方案,讓企業(yè)從模型素材到語義標注,再到數(shù)據(jù)結(jié)構(gòu)處理全流程把控,為用戶關(guān)注的邊緣場景,專門打造特殊的室內(nèi)虛擬環(huán)境,并通過調(diào)整光照參數(shù),實現(xiàn)場景多樣性衍生,在45個工作日即生成了數(shù)萬組高質(zhì)量的3D模型數(shù)據(jù)集和百萬組精細化圖片數(shù)據(jù),數(shù)據(jù)交付即可用,幫助企業(yè)大幅減少數(shù)據(jù)側(cè)投入,提高AI項目進度。
當AI大模型和人形機器人成為科技界的熱議話題,數(shù)據(jù)已然成為了這個時代的核心資產(chǎn)。Coohom Cloud正以其強大的數(shù)據(jù)生成技術(shù),為AI的多樣化應用需求提供支撐,推動行業(yè)向更廣泛的智能化發(fā)展邁進。
One More Thing
我們期待著Coohom Cloud在未來能夠持續(xù)深化其技術(shù),不斷探索新的領(lǐng)域。
而就在6月17日至6月21日,Coohom Cloud團隊將在西雅圖舉辦的2024年CVPR會議上,展位號1637,展示他們的最新成果。如果你對數(shù)據(jù)服務充滿興趣,不如親臨現(xiàn)場與Coohom Cloud團隊深入交流,共同見證AI數(shù)據(jù)服務的未來。
官網(wǎng)主頁:www.coohomcloud.com
聯(lián)系方式:[email protected]
發(fā)表評論
2024-06-19 20:12:17