Wayve利用強化學習技術及“獎懲制度” 實現雷諾Twizy的自動駕駛導航
據外媒報道,人工智能初創企業Wayve認為,應該尋找更好的方式來為自動駕駛汽車提供駕駛培訓,而非致力于配置更為成熟的硬件及詳細的3D地圖。該公司于近日發布了一個視頻,展示了改款雷諾Twizy車型(雙座版電動車)是如何自學自動駕駛導航的。該車輛利用強化學習(機器學習技術的一種),該系統在作出理想的操作后,會獲得“獎賞”,而作出不理想的操作后,將會受到“懲罰”。
本文引用地址:http://www.104case.com/article/201807/383134.htm目前,大部分在研發的自動駕駛系統均依賴3D明細地圖來提供導航,全球各大公司競相創建新地圖,利用成熟的傳感器及攝像頭技術,繪制詳細的城市街道及高速地圖。換言之,自動駕駛系統需要其攝像頭及傳感器復雜體系的支持,從而實現導航操作。
不幸的是,3D地圖是一項勞動密集型的工作,需要頻繁更新地圖中的建筑物。從事3D地圖業務的各公司計劃優先關注并繪制交通量高的道路,再繪制郊區地圖。
Wayve的技術或將淘汰3D地圖。在視頻中,雷諾Twizy車型只搭載了一款前置攝像頭(大多數的自動駕駛車輛均配置了多款攝像頭。以特斯拉的Autopilot為例,其車型搭載了8個攝像頭)。相較之下,雷諾Twizy車型采用一個攝像頭向圖像處理單元(graphics processing unit,GPU)提供實時信息,該款GPU可運行Wayve公司的強化學習算法,可控制車輛的加速、制動及轉向。
在車輛學習過程中,后備駕駛員坐在駕駛座內,每當車輛偏離道路時,會“懲罰”一次系統。當人為干預操作的間隔期越久,系統所獲得的“獎勵”就越多。
在近20分鐘時間里,車輛能夠指出應如何解決多彎道路況的行駛問題。
若Wayve持續研發其強化學習算法,未來自動駕駛車輛似乎不再依賴3D地圖,這意味著所有人都將因自動駕駛車輛而獲益,享受出行樂趣。
評論