Wayve利用強化學習技術及“獎懲制度” 實現(xiàn)雷諾Twizy的自動駕駛導航
據(jù)外媒報道,人工智能初創(chuàng)企業(yè)Wayve認為,應該尋找更好的方式來為自動駕駛汽車提供駕駛培訓,而非致力于配置更為成熟的硬件及詳細的3D地圖。該公司于近日發(fā)布了一個視頻,展示了改款雷諾Twizy車型(雙座版電動車)是如何自學自動駕駛導航的。該車輛利用強化學習(機器學習技術的一種),該系統(tǒng)在作出理想的操作后,會獲得“獎賞”,而作出不理想的操作后,將會受到“懲罰”。
本文引用地址:http://www.bjwjmy.cn/article/201807/383134.htm目前,大部分在研發(fā)的自動駕駛系統(tǒng)均依賴3D明細地圖來提供導航,全球各大公司競相創(chuàng)建新地圖,利用成熟的傳感器及攝像頭技術,繪制詳細的城市街道及高速地圖。換言之,自動駕駛系統(tǒng)需要其攝像頭及傳感器復雜體系的支持,從而實現(xiàn)導航操作。
不幸的是,3D地圖是一項勞動密集型的工作,需要頻繁更新地圖中的建筑物。從事3D地圖業(yè)務的各公司計劃優(yōu)先關注并繪制交通量高的道路,再繪制郊區(qū)地圖。
Wayve的技術或?qū)⑻蕴?D地圖。在視頻中,雷諾Twizy車型只搭載了一款前置攝像頭(大多數(shù)的自動駕駛車輛均配置了多款攝像頭。以特斯拉的Autopilot為例,其車型搭載了8個攝像頭)。相較之下,雷諾Twizy車型采用一個攝像頭向圖像處理單元(graphics processing unit,GPU)提供實時信息,該款GPU可運行Wayve公司的強化學習算法,可控制車輛的加速、制動及轉(zhuǎn)向。
在車輛學習過程中,后備駕駛員坐在駕駛座內(nèi),每當車輛偏離道路時,會“懲罰”一次系統(tǒng)。當人為干預操作的間隔期越久,系統(tǒng)所獲得的“獎勵”就越多。
在近20分鐘時間里,車輛能夠指出應如何解決多彎道路況的行駛問題。
若Wayve持續(xù)研發(fā)其強化學習算法,未來自動駕駛車輛似乎不再依賴3D地圖,這意味著所有人都將因自動駕駛車輛而獲益,享受出行樂趣。
評論