2024年,各汽車廠家在智駕方面宣傳最多的就是端到端。什么是端到端?端到端有哪些優(yōu)劣勢?主流的端到端技術(shù)是怎樣的?今天的三問三解就聊端到端。
端到端(End-to-End)
端到端指從發(fā)送端到接收端的整個通信過程,強(qiáng)調(diào)的是直接的、無需中間過多轉(zhuǎn)接環(huán)節(jié)的通信方式。
在汽車智駕領(lǐng)域,端到端,一端是輸入端,主要是傳感器,包括攝像頭、激光雷達(dá)、毫米波雷達(dá)等,并包含了車輛的自身狀態(tài),如位置、速度、導(dǎo)航等;另外一端就是輸出端,直接輸出車輛行駛軌跡,即傳感器映射出來的車輛行為;端到端的中間,就是AI模型,這個模型直接從輸入端獲得數(shù)據(jù)并輸出結(jié)果,而不需要人為地分多個中間步驟進(jìn)行特征提取和處理。
用通俗的說法來說,可以理解賣家直接對接買家,沒有中間商賺差價,效率更高,信息對接更透明。
端到端有什么優(yōu)劣勢?
此前的模塊化架構(gòu)是多步驟規(guī)則式,感知攝像頭/激光雷達(dá)/毫米波雷達(dá)在獲取到信息后,將信息提供給決策平臺,決策平臺依據(jù)系統(tǒng)設(shè)置的規(guī)則來預(yù)測并規(guī)劃,最后由控制系統(tǒng)去執(zhí)行。由于感知、規(guī)劃及執(zhí)行系統(tǒng)相對獨(dú)立,且每個步驟都要占用一定的計算時間,整體系統(tǒng)的響應(yīng)較慢,延時較高。
舉例來說,模塊化架構(gòu)在行駛時,遇前車制動,在前車已經(jīng)開走后,系統(tǒng)可能依然在制動,體驗(yàn)不佳。且模塊化架構(gòu)的上限低,出現(xiàn)規(guī)則過多或規(guī)則之外的情況,車輛就無法計算出路線,導(dǎo)致“原地發(fā)呆”,從而需要人類駕駛員的接管。
此外,模塊化架構(gòu)還存在信息損耗、執(zhí)行低效、復(fù)合誤差、規(guī)則難以窮盡等問題。
而切換到端到端架構(gòu)后,通過大模型將感知、預(yù)測、規(guī)劃這些流程整合為一,中間流程大幅減少,延時更低,誤差更小,通過大量的數(shù)據(jù)訓(xùn)練,端到端不需要寫規(guī)則,也不需要處理極端場景就可以做到擬人駕駛,這種技術(shù)大幅提升了智駕系統(tǒng)的上限,這就是端到端。
而且端到端的優(yōu)勢不止于此。在構(gòu)建好端到端模型后,數(shù)據(jù)驅(qū)動下,軟件迭代速度更快,整體學(xué)習(xí)能力更強(qiáng),應(yīng)對場景的能力提升速度更快。同時,端到端模型在訓(xùn)練過程中直接學(xué)習(xí)輸入和輸出之間的映射關(guān)系,能夠更好地捕捉數(shù)據(jù)的內(nèi)在規(guī)律,從而提高預(yù)測的準(zhǔn)確性。同時,減少中間環(huán)節(jié)也降低了錯誤發(fā)生的概率,提高了系統(tǒng)的可靠性。
但端到端也不是沒有劣勢。在搭建端到端架構(gòu)時,構(gòu)建一個高效的端到端深度學(xué)習(xí)模型需要大量的計算資源和專業(yè)的技術(shù)知識,模型的訓(xùn)練和優(yōu)化難度很大。
同時,為了實(shí)現(xiàn)準(zhǔn)確的端到端,需要大量的高質(zhì)量數(shù)據(jù)來訓(xùn)練模型。如果數(shù)據(jù)量不足或數(shù)據(jù)質(zhì)量不高,可能會導(dǎo)致模型的性能下降。這也是為什么我們總能在智駕榜中看到用戶的行駛里程,這些行駛里程中遇到的各種高質(zhì)量復(fù)雜場景,將其標(biāo)記、分類,作為端到端模型的訓(xùn)練數(shù)據(jù),當(dāng)積累了足夠量的數(shù)據(jù),端到端模型才能較好的運(yùn)行。
除了訓(xùn)練數(shù)據(jù)量的要求外,端到端模型還需要強(qiáng)大的算力才能支持。
主流的端到端技術(shù)是怎樣的?
以某品牌汽車為例,其智駕方案采用端到端+VLM雙系統(tǒng)方案,用這2個系統(tǒng)解釋人類的思考和決策過程,使得其智駕方案具備擬人的駕駛能力。
系統(tǒng)一屬于快系統(tǒng),即無意識,也不耗費(fèi)腦力,依賴直覺和本能就能判斷,也就是端到端,主要面對日常駕駛處理信息,使輔助駕駛具備“老司機(jī)”的駕駛能力。
VLM是系統(tǒng)二,全名視覺語言模型,VLM模型著重于圖像和場景的理解,作為智駕決策規(guī)劃輸入,讓車輛的行為更合理。這套模型主要應(yīng)對復(fù)雜場景下的邏輯思考和決策,當(dāng)系統(tǒng)一面對無法理解的場景時,系統(tǒng)二來決策并輔助系統(tǒng)一完成場景應(yīng)對。
舉個例子來說,日常行車,在車道線內(nèi)跟車,紅燈停、綠燈行,應(yīng)對并線車等,完全由系統(tǒng)一來完成,但面對諸如限時公交車道、施工路段、潮汐/可變車道等復(fù)雜交通環(huán)境,系統(tǒng)二能“看懂”公交道的通行時間,施工路段的繞行路線等提供更準(zhǔn)確、可靠的決策依據(jù),從而提高了行車的安全性。
但端到端+VLM雙系統(tǒng)是相對獨(dú)立的兩個模型,而VLA模型則更進(jìn)一步,被視作端到端的2.0版本。
VLA是融合了視覺、語言和動作的多模態(tài)大模型,最早見于機(jī)器人行業(yè)。VLA將端到端、VLM兩個模型合二為一,能夠根據(jù)感知直接生成車輛的運(yùn)動規(guī)劃和決策。但多模態(tài)大模型的參數(shù)量也更多,除了擁有高效實(shí)時的推理能力外,同時還要有大模型認(rèn)識復(fù)雜世界并給出建議的能力,這就對算力芯片提出更高的要求。(朋月)