人工智慧研究所冠軍軌跡預測模型 讓自駕車更智慧
你是否曾經好奇,當一輛自駕車在繁忙十字路口準確轉彎、閃避行人,它到底是怎麼「想」的?其實,自駕車的每一個決策背後,都是一場高速演算的精采比賽。從感知周遭環境,到預測其他車輛的下一步,再到規劃最安全路線,背後需要極其精密的AI模型。
自駕車思考模式三部曲
在理解自駕車的思考模式前,必須先掌握其三大關鍵技術:
- 感知:讓車輛能看見並精準識別周遭環境,包括:車輛、行人、交通標線、紅綠燈和所有動、靜態物體皆包括在內。這是自動駕駛的第一步,一旦感知出錯,後續所有判斷都將失效。
- 軌跡預測:預測周遭物體(如:其他車輛、行人)接下來的行進軌跡。例如,一輛車突然加速、打方向燈,系統要能預測它接下來可能會切換車道。
- 動作規劃:根據感知、預測結果,規劃自駕車自身最安全的行進路線。例如,自駕車若預測到前方車輛要切入,則可選擇減速、變換車道,以避免碰撞。
兩座冠軍的肯定
掌握關鍵技術,鴻海研究院人工智慧研究所(簡稱AI所)於2024年參與AI領域最具影響力的國際大型IEEE電腦視覺與模式識別會議 (IEEE/CVF Conference on Computer Vision and Pattern Recognition [CVPR])挑戰賽,聚焦自動駕駛第二階段「軌跡預測」,拿下兩座冠軍、一座亞軍。
兩座冠軍中的其中一座,來自「Argoverse 2挑戰賽」 (Argoverse 2)。Argoverse 2 是美國自駕車公司Argo AI透過其推出的開源資料集與研究平台「Argoverse」,為研究人員提供自動駕駛技術競爭和交流的場域,促進相關技術快速發展與實際應用。
- 分塊技術
- 是一種將輸入資料分成小區塊(patch),再用注意力機制挑選重點區塊進行分析的技術。常用於交通模擬等場景,可提升運算效率,聚焦關鍵資訊,類似人類只專注於最重要路況的思維方式。
其實,2023年時,AI所便曾憑藉「QCNet模型」 在Argoverse 2獲獎。「QCNet」支持動態環境中的即時應用,可在不增加計算複雜性的情況下,處理車輛、行人等大量交通元素和複雜交通場景,大幅提升自動駕駛系統的安全性與可靠性。
在這個基礎上,AI所在2024年推出「Lite-QCNet」,使用基於注意力機制(attention-based)的分塊技術,進行時間抽象化,並使用「K 近鄰(K-NN)局部注意力演算法」,捕捉空間互動性,讓Lite-QCNet模型可在減少運算資源的情況下,依然維持同樣的準確度,大幅縮小模型尺寸,也因此在Argoverse2 基準測試中達到最先進性能,證明它在多車輛運動預測中的卓越效率。
另一座冠軍則來自「Waymo自駕車動態預測挑戰賽」(Waymo Motion Prediction Challenge)。這是由 Google 旗下自駕車公司 Waymo舉辦,聚焦自動駕駛場景軌跡預測的競賽,以推動自動駕駛相關技術發展為宗旨,為研究人員提供展示、交流平台。
這項賽事要求團隊在模擬場景中,為路上車輛、行人等每一個動態物體預測接下來的行駛軌跡。主辦方特別強調,預測不能只考慮單一最可能的路徑,而要同步考慮多種不同可能。例如,一輛車可能選擇繼續直行,也可能選擇變換車道。這種多重可能性的預測能力,對自駕車的動作規劃至關重要。
精準演算引領自駕革新
能在兩大競賽中技冠群雄,AI所所長栗永徽表示,很難歸結為單一因素,而是多個層面的綜合表現,包括:資料處理、模型設計、多模型整合。
他解釋,即便所有團隊使用相同資料集,但資料清理、統計分析、前置處理等方式不同,便會導致巨大差異;另外,雖然使用「Transformer」架構模型已是主流,但每個團隊都對模型的具體架構、模組、參數設定有不同做法,就像不同工匠用相似工具,卻能打造風格迥異的成品。
此次 AI 所獲得冠軍的兩大成果,對自駕車技術的推進意義非凡。栗永徽解釋,一方面模型可更準確預測周遭車輛意圖,提升自駕車的決策準確性,另方面則讓虛擬環境中的車輛行為更接近真實,有助於訓練更智慧化的自動駕駛模型。
特別是這兩大研究成果,與鴻海科技集團「3+3+3轉型策略」中的電動車高度相關。栗永徽認為,電動車和AI技術的交匯點正是自動駕駛,因而自駕車技術也是實現電動車價值與創新的關鍵。
目前,鴻海科技集團正積極投入基礎模型的自主訓練,以迎接未來AI世界的變革。而鴻海的生成式AI發展策略,則是透過基礎模型打造三大平台,分別應用於智慧製造、智慧電動車與智慧城市。
栗永徽表示,鴻海研究院自主研發的「Fox Brain」大語言模型,將成為這三大平台的核心基礎模型,應用在鴻海科技集團的自動駕駛技術中,成為集團策略不可或缺的重要靈魂之一。
- K近鄰(K-NN) 局部注意力演算法
- 做預測前,模型不會對所有物體一視同仁,而是只選出跟自己「距離最近」的 K 個物體進行互動分析。搭配注意力機制後,模型就能進一步判斷這些近鄰中「誰比較重要」,給予不同權重,聚焦在最有可能影響決策的對象。