最近,科技圈最火的話題莫過于“ChatGPT”。不過,ChatGPT只是一種外在表現(xiàn)形式,更值得關注的是背后AI技術進展以及未來的應用落地。
(資料圖片僅供參考)
甚至有人樂觀地描述ChatGPT所帶來的變化:如果說ChatGPT之前,AI最多只是現(xiàn)有場景產(chǎn)品的一個模塊。那么,ChatGPT之后,AI會重新定義現(xiàn)有場景的產(chǎn)品框架。
是否真如樂觀者所言仍有待觀察,但自動駕駛作為AI落地的重要場景之一,是否會在這波浪潮中有更進一步的發(fā)展,仍引起了不少人的探討。
有人認為,自動駕駛需要更多的是圖形、圖像、數(shù)據(jù)的處理能力,對圖像算法的要求更高,與自然語言處理的能力相關性不大,想要ChatGPT的能力來實現(xiàn)自動駕駛,目前還不太可能。
當然也有人認為,ChatGPT的出現(xiàn)給大家看到了一種可能,那就是經(jīng)過訓練后的AI,將會使得高級別的自動駕駛有望在幾年后出現(xiàn)。
自動駕駛是AI落地的重要場景之一
為什么AI技術的進展會讓人關注自動駕駛是否受到影響呢?
觀察自動駕駛的發(fā)展歷史不難發(fā)現(xiàn),自動駕駛的每一次重大突破都跟AI技術發(fā)展同步。
我們知道,AI其實就是在模仿大腦神經(jīng)元網(wǎng)絡,通過分析大量的數(shù)據(jù)來學習一些非常人性化的技能。上世紀80年代,神經(jīng)網(wǎng)絡的第一次實際應用就是發(fā)生在自動駕駛領域。
1987年,卡內(nèi)基-梅隆人工智能實驗室的研究人員試圖制造一種可以自動駕駛的卡車。他們通過為所有的駕駛行為人工編寫代碼,為卡車在道路上遇到的各種情況編寫盡可能詳細的指令,以此讓車輛自動行駛。但遺憾的是,這種方式最終只能讓汽車實現(xiàn)每秒幾英寸的速度。
人工寫代碼的方式不成,另外一個叫迪安·波默洛的博士生選擇了另一種方式:神經(jīng)網(wǎng)絡。
他給自己的系統(tǒng)命名為ALVINN,采用這個系統(tǒng)后,卡車利用車頂攝像頭拍攝的圖像來跟蹤司機們在做什么,以此觀察如何在道路上行進來學習駕駛。1991年,ALVINN以接近60英里的時速從匹茲堡開到了賓夕法尼亞的伊利市。
不過,更直接、更廣泛的影響發(fā)生在2012年。
多倫多大學教授杰夫·辛頓和他的兩名學生——亞力克斯·克里哲夫斯基和伊利亞·薩特斯基弗在ImageNet圖像識別比賽上拿了冠軍,并且發(fā)表論文介紹了算法AlexNet。這篇論文不僅是人工智能的轉折點也是全球科技行業(yè)的轉折點。
目標檢測及圖像識別作為自動駕駛的關鍵技術,高度受益于計算機視覺算法的突破,因此隨著2015年斯坦福人工智能實驗室主任李飛飛團隊在ImageNet開放數(shù)據(jù)集上的識別準確率首次超過人類,自動駕駛作為AI最重要的落地場景之一,也進入了發(fā)展快車道。
對輔助駕駛的影響更直接,但上“車”成本要解決
那么,這次ChatGPT的出現(xiàn)會再次成為自動駕駛的Milestone嗎?
一般來說,AI可以概括分為語音、視覺、自然語言理解三部分。上一波AI浪潮主要是基于視覺上圖像識別技術的突破,而這次ChatGPT則是基于GPT-3模型的自然語言處理技術,它可以有效地模擬人類語言理解能力,從而幫助人們更好地理解和分析自然語言文本數(shù)據(jù)。
當我們要探討ChatGPT會對自動駕駛產(chǎn)生哪些影響的時候,我們認為,首先要弄明白這里的自動駕駛指的是可量產(chǎn)的低級別的自動駕駛(輔助駕駛)還是高級別L4級別的自動駕駛?其次ChatGPT指的是一個語言模型還是更廣義的生成模型?
如果從自然語言理解的角度出發(fā),ChatGPT對于輔助駕駛部分的人機交互的影響更為直接,而對L4級別自動駕駛的影響或許并不大。
乘聯(lián)會秘書長崔東樹也在其微信公眾號發(fā)文稱,目前的人機交互和智能座艙體系的創(chuàng)新很強,尤其是國內(nèi)車企的人機交互能力很強。漢語只有中國企業(yè)理解的更深刻。隨著未來的底層賦能,國內(nèi)汽車業(yè)界在應用層面將會有更多良好的人機交互效果。
比如通過使用ChatGPT,車輛可以通過語音或文本的方式與駕駛員進行交互,并向駕駛員提供有關車輛狀態(tài)、行駛信息等的實時反饋。
在此之前,雖然已經(jīng)出現(xiàn)了大量的車載交互系統(tǒng),但是行業(yè)的痛點主要聚焦于“理解”部分,大部分的車載語音交互系統(tǒng)在“理解”上并不智能,導致整個系統(tǒng)功能單一、命令詞單一。ChatGPT的爆火讓市場看到了解決的希望。
不過,乘聯(lián)會秘書長崔東樹也同時表示,電動化是新能源車的核心,智能化只是錦上添花,未來車企的核心競爭力仍然是造好電動車,同時充分利用ChatGPT等智能化賦能汽車行業(yè)發(fā)展。
當然,不管是不是核心,想要ChatGPT上車,光有技術突破還不行,一位AI行業(yè)人士對鈦媒體表示,“還需要面臨成本的問題,包括使用成本、云服務成本、針對性的訓練成本等?!?/p>
大模型或成趨勢
但是,如果從更廣義的生成模型來看,大數(shù)據(jù)、大參數(shù)的生成式模型會有助于實現(xiàn)更高等級的自動駕駛。
毫末智行數(shù)據(jù)智能科學家賀翔在接受鈦媒體App采訪時表示,車端能力主要包括兩類:感知和認知,感知能力確實主要依靠圖像技術,而認知能力則更依賴ChatGPT類似的生成技術。
也就是說,ChatGPT的重要革命性意義在于:讓AI模型進入了知識和推理的時代。當前,自動駕駛最大的短板恰恰在于決策規(guī)劃缺乏足夠的智能。
ChatGPT 使用了一種叫“人類反饋強化學習(RLHF)”的訓練方法,毫末智行數(shù)據(jù)智能科學家賀翔對鈦媒體APP解釋稱,GPT是一個大規(guī)模通用預訓練語言模型,GPT1、2、3主要是參數(shù)規(guī)模的提升,ChatGPT主要是引入了人類反饋數(shù)據(jù)做強化學習。
這種方法的引入可以在訓練中根據(jù)人類反饋,保證對無益、失真或偏見信息的最小化輸出。
恰好自動駕駛決策算法中也有一類叫做模仿學習,就是讓機器去學習不同場景下人類駕駛員是怎樣做的。
一般來說,人類司機的每一次接管,都是對自動駕駛策略的一次人為反饋;這個接管數(shù)據(jù)可以被簡單當成一個負樣本來使用,就是自動駕駛決策被糾正的一次記錄。同時也可以被當作改進認知決策的正樣本來學習。
“大數(shù)據(jù)、大參數(shù)的大模型能學到更多的潛在知識,包括不同的環(huán)境、不同的場景等,相當于學習到了大量的自動駕駛常識,這種常識對自動駕駛決策至關重要?!焙聊┲切袛?shù)據(jù)智能科學家賀翔對鈦媒體App表示。
也就是說,在自動駕駛研發(fā)的過程中采用人類反饋強化學習的思想,可以訓練出模型來驗證、評價機器模型的輸出,使其不斷進步,最終達到人類的駕駛水平。
所以,可以說基礎能力的提升,帶來了想象力及可應用場景的擴張。但目前階段,我們?nèi)匀粺o法準確判斷以ChatGPT為代表的大模型會給自動駕駛帶來多大的變革,一位行業(yè)人士對鈦媒體App表示,通過大模型訓練而來的優(yōu)秀泛化能力,可能讓世間再無corner case。
corner case是指在自動駕駛中是指行駛過程中可能出現(xiàn),但發(fā)生頻率極低的小概率事件。盡管平時很少會遇到,但對于自動駕駛系統(tǒng)來說,遇到無法做出決策的corner case時,很可能會導致致命的交通事故。
ChatGPT的橫空出世則讓行業(yè)認識到,不斷去累積公里數(shù),一直這么跑下去是可以獲得更高級別的自動駕駛技術的跨越。
事實上在此之前,不管是國外的特斯拉,還是國內(nèi)的小鵬、百度、毫末智行都已經(jīng)在探索“大模型”的路線了。
特斯拉在2020年宣布將基于深度神經(jīng)網(wǎng)絡的大模型引入其自動駕駛之中,到現(xiàn)在已實現(xiàn)了純視覺FSD Beta的大規(guī)模公測;小鵬在2022年1024科技日中表達了使用大模型打通XNGP全場景能力的觀點;百度Apollo認為文心大模型將是提升器自動駕駛能力的核心驅動力。
毫末智行則早在2021年宣布要借助大模型提升數(shù)據(jù)處理能力,今年2月17日,毫末智行將人駕自監(jiān)督認知大模型正式升級為“DriveGPT”,將持續(xù)引入大規(guī)模真實接管數(shù)據(jù),通過人駕數(shù)據(jù)反饋的強化學習,來不斷提升測評效果,同時也將DriveGPT作為云端測評模型,用來評估車端小模型的駕駛效果。
不過,高級別的自動駕駛汽車的開發(fā)是一個復雜的多學科領域,涉及廣泛的技術和監(jiān)管挑戰(zhàn),人工智能技術進展可以帶來一定的推動作用,但是這并非一個短期可以實現(xiàn)的問題。
有報道稱,GPT3.0涉及了1700億參數(shù),內(nèi)存達300多GB,訓練過程耗費1200多萬美金。上述行業(yè)人士表示,自動駕駛算法是要跑在車上,這么大的模型能不能部署到車端?又需要耗費多少算力支持?另外,自動駕駛不能依靠重復性、簡單的路況數(shù)據(jù)堆疊就能完成,因此如何保證數(shù)據(jù)量大且有效也是一個關鍵的問題。(本文首發(fā)鈦媒體App, 作者|韓敬嫻,編輯|張敏)