《三問三解》之：端到端

2025-01-14 17:15:56中國質(zhì)量新聞網(wǎng)

2024年，各汽車廠家在智駕方面宣傳最多的就是端到端。什么是端到端？端到端有哪些優(yōu)劣勢？主流的端到端技術(shù)是怎樣的？今天的三問三解就聊端到端。

端到端（End-to-End）

端到端指從發(fā)送端到接收端的整個通信過程，強(qiáng)調(diào)的是直接的、無需中間過多轉(zhuǎn)接環(huán)節(jié)的通信方式。

在汽車智駕領(lǐng)域，端到端，一端是輸入端，主要是傳感器，包括攝像頭、激光雷達(dá)、毫米波雷達(dá)等，并包含了車輛的自身狀態(tài)，如位置、速度、導(dǎo)航等；另外一端就是輸出端，直接輸出車輛行駛軌跡，即傳感器映射出來的車輛行為；端到端的中間，就是AI模型，這個模型直接從輸入端獲得數(shù)據(jù)并輸出結(jié)果，而不需要人為地分多個中間步驟進(jìn)行特征提取和處理。

用通俗的說法來說，可以理解賣家直接對接買家，沒有中間商賺差價，效率更高，信息對接更透明。

端到端有什么優(yōu)劣勢？

此前的模塊化架構(gòu)是多步驟規(guī)則式，感知攝像頭/激光雷達(dá)/毫米波雷達(dá)在獲取到信息后，將信息提供給決策平臺，決策平臺依據(jù)系統(tǒng)設(shè)置的規(guī)則來預(yù)測并規(guī)劃，最后由控制系統(tǒng)去執(zhí)行。由于感知、規(guī)劃及執(zhí)行系統(tǒng)相對獨(dú)立，且每個步驟都要占用一定的計算時間，整體系統(tǒng)的響應(yīng)較慢，延時較高。

舉例來說，模塊化架構(gòu)在行駛時，遇前車制動，在前車已經(jīng)開走后，系統(tǒng)可能依然在制動，體驗(yàn)不佳。且模塊化架構(gòu)的上限低，出現(xiàn)規(guī)則過多或規(guī)則之外的情況，車輛就無法計算出路線，導(dǎo)致“原地發(fā)呆”，從而需要人類駕駛員的接管。

此外，模塊化架構(gòu)還存在信息損耗、執(zhí)行低效、復(fù)合誤差、規(guī)則難以窮盡等問題。

而切換到端到端架構(gòu)后，通過大模型將感知、預(yù)測、規(guī)劃這些流程整合為一，中間流程大幅減少，延時更低，誤差更小，通過大量的數(shù)據(jù)訓(xùn)練，端到端不需要寫規(guī)則，也不需要處理極端場景就可以做到擬人駕駛，這種技術(shù)大幅提升了智駕系統(tǒng)的上限，這就是端到端。

而且端到端的優(yōu)勢不止于此。在構(gòu)建好端到端模型后，數(shù)據(jù)驅(qū)動下，軟件迭代速度更快，整體學(xué)習(xí)能力更強(qiáng)，應(yīng)對場景的能力提升速度更快。同時，端到端模型在訓(xùn)練過程中直接學(xué)習(xí)輸入和輸出之間的映射關(guān)系，能夠更好地捕捉數(shù)據(jù)的內(nèi)在規(guī)律，從而提高預(yù)測的準(zhǔn)確性。同時，減少中間環(huán)節(jié)也降低了錯誤發(fā)生的概率，提高了系統(tǒng)的可靠性。

但端到端也不是沒有劣勢。在搭建端到端架構(gòu)時，構(gòu)建一個高效的端到端深度學(xué)習(xí)模型需要大量的計算資源和專業(yè)的技術(shù)知識，模型的訓(xùn)練和優(yōu)化難度很大。

同時，為了實(shí)現(xiàn)準(zhǔn)確的端到端，需要大量的高質(zhì)量數(shù)據(jù)來訓(xùn)練模型。如果數(shù)據(jù)量不足或數(shù)據(jù)質(zhì)量不高，可能會導(dǎo)致模型的性能下降。這也是為什么我們總能在智駕榜中看到用戶的行駛里程，這些行駛里程中遇到的各種高質(zhì)量復(fù)雜場景，將其標(biāo)記、分類，作為端到端模型的訓(xùn)練數(shù)據(jù)，當(dāng)積累了足夠量的數(shù)據(jù)，端到端模型才能較好的運(yùn)行。

除了訓(xùn)練數(shù)據(jù)量的要求外，端到端模型還需要強(qiáng)大的算力才能支持。

主流的端到端技術(shù)是怎樣的？

以某品牌汽車為例，其智駕方案采用端到端+VLM雙系統(tǒng)方案，用這2個系統(tǒng)解釋人類的思考和決策過程，使得其智駕方案具備擬人的駕駛能力。

系統(tǒng)一屬于快系統(tǒng)，即無意識，也不耗費(fèi)腦力，依賴直覺和本能就能判斷，也就是端到端，主要面對日常駕駛處理信息，使輔助駕駛具備“老司機(jī)”的駕駛能力。

VLM是系統(tǒng)二，全名視覺語言模型，VLM模型著重于圖像和場景的理解，作為智駕決策規(guī)劃輸入，讓車輛的行為更合理。這套模型主要應(yīng)對復(fù)雜場景下的邏輯思考和決策，當(dāng)系統(tǒng)一面對無法理解的場景時，系統(tǒng)二來決策并輔助系統(tǒng)一完成場景應(yīng)對。

舉個例子來說，日常行車，在車道線內(nèi)跟車，紅燈停、綠燈行，應(yīng)對并線車等，完全由系統(tǒng)一來完成，但面對諸如限時公交車道、施工路段、潮汐/可變車道等復(fù)雜交通環(huán)境，系統(tǒng)二能“看懂”公交道的通行時間，施工路段的繞行路線等提供更準(zhǔn)確、可靠的決策依據(jù)，從而提高了行車的安全性。

但端到端+VLM雙系統(tǒng)是相對獨(dú)立的兩個模型，而VLA模型則更進(jìn)一步，被視作端到端的2.0版本。

VLA是融合了視覺、語言和動作的多模態(tài)大模型，最早見于機(jī)器人行業(yè)。VLA將端到端、VLM兩個模型合二為一，能夠根據(jù)感知直接生成車輛的運(yùn)動規(guī)劃和決策。但多模態(tài)大模型的參數(shù)量也更多，除了擁有高效實(shí)時的推理能力外，同時還要有大模型認(rèn)識復(fù)雜世界并給出建議的能力，這就對算力芯片提出更高的要求。（朋月）

(責(zé)任編輯:陸明)

聲明：

本網(wǎng)注明“來源：中國質(zhì)量新聞網(wǎng)”的所有作品，版權(quán)均屬于中國質(zhì)量新聞網(wǎng)，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其他方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：中國質(zhì)量新聞網(wǎng)”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。若需轉(zhuǎn)載本網(wǎng)稿件，請致電：010-84648459。

本網(wǎng)注明“來源：XXX（非中國質(zhì)量新聞網(wǎng)）”的作品，均轉(zhuǎn)載自其他媒體，轉(zhuǎn)載目的在于傳遞更多信息，不代表本網(wǎng)觀點(diǎn)。文章內(nèi)容僅供參考。如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的，請直接點(diǎn)擊《新聞稿件修改申請表》表格填寫修改內(nèi)容（所有選項(xiàng)均為必填），然后發(fā)郵件至 lxwm@cqn.com.cn，以便本網(wǎng)盡快處理。

最新新聞

友情鏈接

中國政府網(wǎng)
國家市場監(jiān)督管理總局
國家藥品監(jiān)督管理局
國家知識產(chǎn)權(quán)局
國家認(rèn)證認(rèn)可監(jiān)督管理委員會
國家標(biāo)準(zhǔn)化管理委員會

在线观看精品国产大片|免费一区二区视频|亚洲аv在线观看|欧美在线激情性受

《三問三解》之：端到端