出品丨虎嗅汽車組
作者丨周到
頭圖丨視覺中國
一直以來,智能駕駛功能“王不見王”的局面,如今要有變化了。
本月初,有特斯拉員工在進行直播時“無意”中泄露,F(xiàn)SD(Full-Self Driving,“完全自動駕駛”功能)的內(nèi)測版V12疑似正在中國進行測試。顯然,在解決了信息安全合規(guī)問題之后,在美國大殺四方的FSD,終于有望來中國和華為城區(qū)NCA一決高下了。
不過對于兩家企業(yè)的高階智駕產(chǎn)品,究竟誰在中國的表現(xiàn)會更厲害這個問題,外界一直有不少爭論。一些人認為,中美兩國的道路環(huán)境、交通規(guī)則和用戶習(xí)慣都存在不小的區(qū)別,因此FSD來到中國注定會水土不服,在華為面前落得下風(fēng)。
但是,幾乎每一個交流的技術(shù)人士都告訴筆者,特斯拉在端到端架構(gòu)上取得的領(lǐng)先優(yōu)勢,絕對不容小覷。因為在美國,已經(jīng)實現(xiàn)量產(chǎn)的FSD BETA V12給到了全球車企與科技公司足夠大的震撼。
那么問題來了,由特斯拉率先量產(chǎn),且在國內(nèi)被華為、蔚小理頻頻提及的端到端架構(gòu),到底是什么?特斯拉如今“僅剩”的這一項優(yōu)勢,其內(nèi)部原理到底是什么?為此,虎嗅汽車暗信號團隊經(jīng)過多方訪談和調(diào)研,為大家呈現(xiàn)這一前沿和復(fù)雜概念背后,技術(shù)原理和工程難點到底有哪些。
端到端:這邊豬進去,那邊香腸出來
只要你在B站或者各類帶有視頻內(nèi)容的社交網(wǎng)站上搜索“特斯拉FSD V12”,就能看到大量美國車主曬出的FSD體驗視頻。在這些視頻中,已經(jīng)升級到最新系統(tǒng)的特斯拉汽車在繁忙的美國街道中,智駕表現(xiàn)堪稱“類人”。
從上圖可以看到,車主駕駛的Model Y在路遇園林工人鋸下的樹枝時幾乎“沒打磕巴”,在無需接管的狀態(tài)下直接操縱車輛繞開了障礙物。
而在更多視頻里,特斯拉汽車完成了太多當前其他品牌車型智駕功能沒有的表現(xiàn):面對正在施工的道路,在樁桶的引導(dǎo)下駛?cè)雽ο蜍嚨滥嫘?,并在施工路段結(jié)束后回到正向車道;在沒有紅綠燈的十字路口,準確遵循“STOP”標志停車并等到左側(cè)車輛先行;在到達目的地后并不馬上退出,并會在人類駕駛員沒有給出進一步指令的前提下,自動靠邊停車。而如果該地點無法靠邊,便自動向前行駛尋找車位……
這一切實現(xiàn)的基礎(chǔ),便是智能駕駛的端到端架構(gòu)。在筆者看來,這對于汽車而言可謂是第一個接近于ChatGPT的發(fā)明,將極大地改善智能駕駛體驗。
所謂端到端(end-to-end)架構(gòu),其對應(yīng)的是如今絕大多數(shù)車企采用的模塊化架構(gòu)。在過去,工程師們將一輛車的智能/自動駕駛分為感知、決策規(guī)劃和控制分為三個模塊:感知、決策和控制。
其中,感知模塊通過車身傳感器信息的接入,實現(xiàn)對道路中車輛、行人以及各類障礙物的識別,并完成對車輛自身的精確定位。決策和控制模塊(Planing and Control)負責對于前方移動障礙物的軌跡、速度進行預(yù)判,并規(guī)劃出車輛行進的路線,保障車輛安全行駛。最后,系統(tǒng)將計算得出的操作指令下發(fā)給油門、剎車和轉(zhuǎn)向系統(tǒng),操作車輛行駛。
對于這個架構(gòu),其實我們可以理解為“規(guī)則執(zhí)行器”。無論是感知到障礙物特征,并基于數(shù)據(jù)庫對其進行分類,還是在具體場景中根據(jù)周遭環(huán)境變化而進行相應(yīng)的操作,系統(tǒng)都是根據(jù)一條條工程師寫好的規(guī)則進行執(zhí)行。在業(yè)內(nèi),模塊化的智能/自動駕駛架構(gòu)也叫做“rule-based”。
但端到端的架構(gòu)下,系統(tǒng)將感知與PNC模塊直接打包進了一個大模型。傳感器的數(shù)據(jù)直接輸入到模型中,經(jīng)過計算后直接輸出結(jié)果,發(fā)送給執(zhí)行器。而大模型則是基于大量測試車輛以及用戶實際駕駛的真實數(shù)據(jù)進行訓(xùn)練而成的,能夠主動學(xué)習(xí)人類的駕駛習(xí)慣。
從上圖中就可以看到,傳感器通過大模型直接連接到了執(zhí)行器,這就是所謂的“端到端”。用一個不恰當?shù)睦觼碇v,這就相當于一個整體打包的食品生產(chǎn)線:這邊豬跑進去,另一邊香腸、鹵煮、肉皮凍直接出來。
相比較模塊化,端到端架構(gòu)的優(yōu)勢顯而易見。首先,系統(tǒng)不再是基于由工程師所編寫的規(guī)則進行決策和控制,而是通過數(shù)據(jù)驅(qū)動(data-dirvien)實現(xiàn)成長,這就讓系統(tǒng)處理問題具備了泛化的能力。
在過去,如果面對規(guī)則中不存在的場景,模塊化架構(gòu)的智能汽車往往會退出系統(tǒng)并提示駕駛員接管,抑或采取了錯誤的操作造成事故。而端到端架構(gòu)則能夠在面對極端場景(也就是corner case)時,像人類一樣基于“直覺”采取包括繞行、避險乃至“硬開”等方式行駛,從而極大地提升安全性和用戶體驗。
其次,相比較由一條條規(guī)則和一個個模塊構(gòu)成的老系統(tǒng),端到端架構(gòu)能夠在提升決策效率的同時,極大地降低了代碼量。例如特斯拉就聲稱,F(xiàn)SD Beta V12系統(tǒng)相比較過去,減少了30萬行代碼。這不僅會降低車端的存儲壓力,還能極大提升系統(tǒng)的簡潔度,從而改善運行效率。
最后,也是最重要的一點,端到端架構(gòu)是一個真正的“大模型”,已經(jīng)具備了人類駕駛員的部分特征。在未來隨著模型訓(xùn)練數(shù)據(jù)量的不斷提升和迭代,我們有望在端到端架構(gòu)下成功打造汽車人工智能,并最終取代人類駕駛員,實現(xiàn)真正的L4級無人駕駛。
更重要的是,模塊化的架構(gòu)盡管在積累了足夠多的策略后能在日常道路環(huán)境中順暢行駛,但面對“計劃外”的場景(也就是corner case)時,仍然會退出或做出錯誤決策。這不僅影響用戶體驗,還會發(fā)生危險。
但真正形成了AI大模型能力的端到端架構(gòu)不再基于既定的規(guī)則進行規(guī)劃和控制,而是能夠像人一樣,憑借“經(jīng)驗”和乃至“直覺”開車,因此不再強調(diào)對corner case的學(xué)習(xí),能帶給用戶更接近于人類的駕駛體驗。
不過,縱然業(yè)界都已經(jīng)明白了端到端架構(gòu)的好處,但至今在量產(chǎn)車上該技術(shù)的汽車品牌,也有且僅有特斯拉一家。因為從技術(shù)本身的實現(xiàn)上看,要讓車輛像人一樣預(yù)測道路上其他交通參與者的行為,并制定安全高效的行駛策略,堪稱是自動駕駛技術(shù)中,最難的一個任務(wù)。
如何讓機器像人一樣開車?
需要說明的是,國內(nèi)一些企業(yè)已經(jīng)在宣傳自己實現(xiàn)了“大模型上車”。但是,他們目前僅僅是將感知部分實現(xiàn)了“端到端”。其實,在感知層面實現(xiàn)所謂的數(shù)據(jù)驅(qū)動,依舊只是讓系統(tǒng)自主識別目標物類型、道路環(huán)境特征并通過高精地圖等方式實現(xiàn)車輛定位,后續(xù)的PNC依舊需要依照工程師寫好的策略執(zhí)行。而這已經(jīng)是業(yè)界的通行方案了。
但是,只有一半的大模型,顯然不是真正的“端到端”。正如前文所述,事情的關(guān)鍵在于,能不能讓車輛像人一樣,在“看”到并認識到前方道路環(huán)境后,自主選擇最優(yōu)路徑前進。
要理解這一問題,我們首先要拆解,PNC實現(xiàn)端到端的過程中需要解決哪些問題。在去年的9月的NIO IN 2023蔚來創(chuàng)新科技日上,該公司智能駕駛研發(fā)副總裁任少卿曾分享過該公司的端到端PNC技術(shù)架構(gòu),屬于業(yè)界少見的,能公開詳細講解技術(shù)思路的實際案例。通過他的解讀和資料解析,我們能夠?qū)τ赑NC過程中需要解決的問題,有一個大概的框架。
需要說明的是,蔚來的方案在業(yè)界也并非獨一無二,大家的技術(shù)路線其實大同小異。選取該公司作為案例的原因,在于這是公開資料中,筆者能夠找到的,相對而言最為清晰全面的一個。
首先來看蔚來整個PNC的規(guī)劃方面,如圖所示,在一個路口的典型場景,系統(tǒng)在接收到傳感器的信號后,會對環(huán)境中的動態(tài)物體和靜態(tài)物體進行分類,并篩選出在車輛行駛路徑上,可能會造成影響的目標。
伴隨著時間的變化,交通參與者下一步的行動也會隨之改變。如果想要盡可能提前更多時間預(yù)測目標行為,難度就會幾何級提升。例如,系統(tǒng)若想預(yù)測10個目標物體此刻可能的行為,其復(fù)雜度為2^10=1024,那么提前5秒預(yù)測的話,復(fù)雜度就上升到了1024^5,也就是10^15。
在其中,系統(tǒng)會利用動態(tài)場景編碼、動態(tài)元素編碼、動態(tài)元素交互編碼和動靜態(tài)交互編碼對于每一個目標物,也就是交通參與者的行為進行預(yù)測,最終得出可能的交互結(jié)果。
在上圖最右側(cè)的交互場景表達中可以看到,如果路口中有10個交通參與者,最終根據(jù)排列組合可以形成10 ~ 100種預(yù)測的交互模式。
在獲得環(huán)境交互的場景表達結(jié)果后,系統(tǒng)就需要根據(jù)對于其他交通參與者的行為推演,完成進一步對車輛行駛的路徑進行規(guī)劃了。蔚來的目標是在30毫秒內(nèi)對環(huán)境未來7秒的交通環(huán)境進行預(yù)測,這比標準電影中的一幀畫面的時間還短。
在這過程中,車輛對于不同交通參與者存在可能的多種決策。舉例來說,對于第一輛車,系統(tǒng)可能會采取讓行、繞行、加速通過,對于第二個行人也可能有讓行、左側(cè)繞行、右側(cè)繞行等等各種決策。而對前一個參與者產(chǎn)生不同決策之后,后一個目標也會勢必產(chǎn)生連鎖反應(yīng)。因此就產(chǎn)生了圖中央部分的決策樹形結(jié)構(gòu)。而系統(tǒng)需要的,則是采取最優(yōu)解,高效、安全地通過路口。
注意,其中最關(guān)鍵的部分來了:工程師需要在這一過程中,為系統(tǒng)設(shè)置場景價值排序,引導(dǎo)系統(tǒng)選取最佳路徑。例如排在第一的可能是保證乘客的舒適,第二是通行效率,第三是安全,第四是遵循交通法規(guī)……當然這些只是筆者的舉例,不同企業(yè)可能會有差別。但這一切的核心目的,都是讓車輛在PNC的過程中,價值取向和人類更接近,從而提供最舒適的決策方案。
在模型迭代的過程中,這被稱為RLHF(人類反饋強化學(xué)習(xí)),是工程師需要大模型強加學(xué)習(xí)的部分。為此,開發(fā)團隊會給系統(tǒng)喂大量用戶的實際駕駛行為數(shù)據(jù),以及其他交通參與者對于車輛行為反饋的數(shù)據(jù)。
說句題外話,之所以包括特斯拉、蔚來、小鵬等絕大多數(shù)智能汽車品牌會對于用戶的駕駛行為進行評分,并對于評分高的用戶優(yōu)先推送智駕功能,其背后的另一個原因便在于這部分高分用戶的駕駛行為對于系統(tǒng)而言是優(yōu)良的學(xué)習(xí)數(shù)據(jù)。車企的這種做法一方面是給用戶以安全駕駛激勵和引導(dǎo),另一方面也是引導(dǎo)更多用戶提升駕駛的規(guī)范性,進而為系統(tǒng)提供更多優(yōu)良數(shù)據(jù)。
最后在決策樹中選取了最佳路徑后,系統(tǒng)會得出圖片左側(cè)顯示的“可行域凸空間走廊”。在這條可通行區(qū)域里,大模型會結(jié)合全交互拓撲編碼,以及再一次疊加人類價值偏好數(shù)據(jù),最終生成右圖中最優(yōu)的行駛軌跡。
上面這一段文字可能有些燒腦,但這已經(jīng)是筆者用最簡單平實的語言,結(jié)合蔚來的技術(shù)方案給各位闡釋出的PNC路徑。這時可能有用戶就要問下一個問題了:既然方法和路徑已經(jīng)解決了,為何現(xiàn)在端到端架構(gòu)還是沒有量產(chǎn)上車呢?
這就需要提到下一個問題:大模型的不可解釋性,和車企開發(fā)規(guī)程之間的矛盾和沖突了。
車企的標準“老鞋”,走不了端到端的新路?
對于大模型的不可解釋性,很多人可能已經(jīng)略有耳聞。對于這個概念,簡而言之,由于大模型是通過大量的數(shù)據(jù)訓(xùn)練而成,但其如何得出具體結(jié)果的過程并不透明,無法像傳統(tǒng)規(guī)則算法那樣進行詳細解釋。舉例來說,就是無論是ChatGPT還是文心一言,都無法避免在一些專業(yè)問題上“瞎編亂造”。
“所以,27到底是不是質(zhì)數(shù)?”
對于一個聊天機器人來說,這顯然不會出太大的事故,但放在以安全為準繩的汽車行業(yè),便是一種不可接受的行為了。尤其是對于很多依靠供應(yīng)商提供智駕方案的傳統(tǒng)車企來說,如何驗收端到端架構(gòu)的智能駕駛系統(tǒng),一直是個難題。
在國內(nèi)某知名智能駕駛公司任職的不害(化名)告訴筆者,他曾經(jīng)服務(wù)過一家知名德系豪華品牌。該公司像很多汽車企業(yè)一樣,對于智能駕駛功能有著一套顆粒度細致到代碼層的開發(fā)標準,其中包含超過100個safety goal(安全目標),其中涉及AEB(自動緊急制動系統(tǒng))的就有7個。對于其中的每一項,車企都會打分,并對代碼進行審核。
舉例來說,其中一條安全目標是這樣寫的:
“要求描述:沒有可用的或需要穩(wěn)定化相關(guān)系統(tǒng)的制動干預(yù)應(yīng)被防止。安全狀態(tài):AEB不進行縱向控制干預(yù)?!?“接受標準:最大故障注入后橫擺率變化取決于車速。故障注入后10秒內(nèi)的目標值如下:車速80 km/h時為4°/s,車速130 km/h時為3°/s”
很晦澀是吧?實際上筆者選取的是其中最短的一條。不害透露,這些安全目標一方面為車企的驗收提供了指引,另一方面也給供應(yīng)商的開發(fā)給出了方向。這套流程原本在模塊化架構(gòu)下運行得很順暢,但對于端到端智能駕駛而言卻無法適配了。
“傳統(tǒng)車企對于功能安全、預(yù)期功能安全的相關(guān)指標,是基于FSC(功能安全概念)、PSC(產(chǎn)品安全案例)和SSR(系統(tǒng)安全要求)進行的。基于各家車企SSR的不同,供應(yīng)商會各自寫代碼開發(fā)產(chǎn)品?!辈缓φf道。
傳統(tǒng)的汽車測試,只能驗證“功能”,而無法考核“能力”
顯然,對于模塊化架構(gòu)的智能駕駛,車企是有一整套開發(fā)指引和驗收標準的,能夠從代碼層面確保功能安全。但對于參數(shù)復(fù)雜且處于黑箱狀態(tài)的端到端架構(gòu),車企無法保證其在日常行駛的過程中不會出事故。
換句話說,通過駕校的考試,只能說明一個人具備了基本的駕駛知識,拿到了開車上路的資格。但此人到底開得好不好,以及會不會因為大腦短路,開車沖入了河里,這事駕校無法保證。
“也就是特斯拉這樣的汽車企業(yè),能夠一定程度上繞過汽車行業(yè)的傳統(tǒng)開發(fā)標準,實現(xiàn)端到端架構(gòu)上車?!辈缓φ{(diào)侃道,“這事放在傳統(tǒng)車企,軟件和測試部門肯定通不過。”
其實就算是特斯拉,其FSD V12也并非一個徹頭徹尾的端到端架構(gòu)智駕系統(tǒng),其上還有個3000行代碼左右的策略“安全殼”,以便兜住安全的底線。“例如,當大模型操作車輛向左變道后,如果左側(cè)后向右車輛高速駛來,安全殼中的策略規(guī)則就會制止這次變道,把風(fēng)險規(guī)避掉?!辈缓榻B道。
不過,這個安全殼到底畢竟是一個打補丁的產(chǎn)物。其中到底要覆蓋多少場景,依舊是工程師們需要思考和取舍的問題。更何況,如果安全殼做得太大,又相當于回到了模塊化架構(gòu)下,儼然畫蛇添足。
當然,端到端架構(gòu)要實現(xiàn)量產(chǎn)上車,需要面對的挑戰(zhàn)和困難遠不止文中提到的這些,筆者只是選取了其中幾個比較有代表性的問題進行介紹。但盡管如此,端到端架構(gòu)相比較如今模塊化架構(gòu)的優(yōu)勢,依舊是在代際層次上的。相信隨著我們國內(nèi)眾多汽車品牌,尤其是新勢力們的努力,搭載端到端架構(gòu)的智能汽車很快就將和我們見面了。
寫在最后:
正如前文提到的,相比較傳統(tǒng)車企,像特斯拉這樣的造車新勢力們在端到端架構(gòu)的量產(chǎn)節(jié)奏方面,大概率會擁有更大的優(yōu)勢。實際上從今年下半年開始,就將有越來越多的汽車品牌在我國開放新技術(shù)的量產(chǎn)交付。
華為在今年4月北京車展前的發(fā)布會上透露,采用了端到端架構(gòu)的ADS 3.0,預(yù)計會首搭在享界S9上;小鵬在上個月的AI Day上宣布將上線端到端大模型,并在今年8月實現(xiàn)“全國每條路都能開”;蔚來在今年上半年上線了端到端的主動安全功能,并在下半年量產(chǎn)端到端城市智能駕駛;理想則在這方面的傳播相對“摟著”,只是說在今年三季度推送“無圖NOA(城市領(lǐng)航輔助)”,在今年年底或明年年初推出端到端大模型驅(qū)動的L3自動駕駛體系。
顯然,如果特斯拉今年三季度真的能在國內(nèi)推送FSD的V12版本的話,將大概率會遭遇一場國內(nèi)汽車品牌的“三英戰(zhàn)呂布”。究竟鹿死誰手,顯然是一場值得期待的好戲。
注:特別鳴謝智能駕駛公司技術(shù)人員“不害”對本文提供的信息支持
發(fā)表評論
2024-06-23 18:07:48
2024-06-23 18:07:48
2024-06-23 18:07:48
2024-06-23 18:07:48
2024-06-23 18:07:48