博客專欄

        EEPW首頁 > 博客 > 特斯拉高管:自動駕駛不需要激光雷達

        特斯拉高管:自動駕駛不需要激光雷達

        發布人:wxhxkj01 時間:2021-07-31 來源:工程師 發布文章
        打造全自動駕駛汽車所需的技術棧是什么?公司和研究人員對這個問題的答案存在分歧。自動駕駛的方法范圍從單純的攝像頭和計算機視覺到計算機視覺和先進傳感器的組合。
         
        特斯拉一直是自動駕駛純視覺方法的擁護者,在今年的計算機視覺和模式識別會議 (CVPR) 上,其首席人工智能科學家 Andrej Karpathy 解釋了原因。
         
        在 CVPR 2021 自動駕駛研討會上,過去幾年一直領導特斯拉自動駕駛工作的 Karpathy詳細介紹了該公司如何開發僅需要視頻輸入即可了解汽車周圍環境的深度學習系統。他還解釋了為什么特斯拉處于使基于視覺的自動駕駛汽車成為現實的最佳位置。
         
        通用計算機視覺系統
         
        深度神經網絡是自動駕駛技術堆棧的主要組成部分之一。神經網絡分析道路、標志、汽車、障礙物和人的車載攝像頭。
         
        但是深度學習在檢測圖像中的對象時也會出錯。這就是為什么大多數自動駕駛汽車公司,包括Alphabet 子公司 Waymo,使用激光雷達,這是一種通過向各個方向****激光束來創建汽車周圍 3D 地圖的設備。激光雷達提供了可以填補神經網絡空白的附加信息。
         
        然而,將激光雷達添加到自動駕駛堆棧會帶來其自身的復雜性。“你必須用激光雷達預先繪制環境地圖,然后你必須創建一張高清地圖,你必須插入所有車道及其連接方式以及所有交通燈,”Karpathy說。“在測試時,您只需定位到該地圖即可四處行駛。”
         
         
        創建自動駕駛汽車將要行駛的每個位置的精確地圖是極其困難的。“收集、構建和維護這些高清激光雷達地圖是不可擴展的,”Karpathy說。“讓這個基礎設施保持最新狀態將是極其困難的。”
         
        特斯拉在其自動駕駛堆棧中不使用激光雷達和高清地圖。“根據圍繞汽車的八個攝像頭拍攝的視頻,發生的一切都是第一次發生在車內,”Karpathy說。
         
        自動駕駛技術必須弄清楚車道在哪里,紅綠燈在哪里,它們的狀態是什么,以及哪些與車輛相關。它必須在沒有任何關于它所導航道路的預定義信息的情況下完成所有這些工作。
         
        Karpathy承認,基于視覺的自動駕駛在技術上更加困難,因為它需要神經網絡,僅基于視頻輸入就可以運行得非常好。“但一旦你真正讓它工作起來,它就是一個通用的視覺系統,主要可以部署在地球上的任何地方,”他說。
         
        使用通用視覺系統,您的汽車將不再需要任何輔助裝備。Karpathy說,特斯拉已經在朝著這個方向前進。此前,該公司的汽車使用雷達和攝像頭的組合進行自動駕駛。但它最近開始運送沒有雷達的汽車。
         
        “我們刪除了雷達,在這些車里只靠視覺駕駛,”Karpathy說,并補充說,原因是特斯拉的深度學習系統已經達到了比雷達好一百倍的地步,現在雷達開始了阻止事情發生并“開始產生噪音”。
         
        監督學習
         
        反對純計算機視覺方法的主要論點是,在沒有激光雷達深度圖的幫助下,神經網絡是否可以進行測距和深度估計存在不確定性。
         
        Karpathy說:“顯然,人類駕駛時有視覺,所以我們的神經網絡能夠處理視覺輸入,以了解我們周圍物體的深度和速度。”“但最大的問題是合成神經網絡能否做到同樣的事情。我認為,在過去幾個月我們一直在努力解決這個問題的內部,對我們的回答是明確的“是”。”
         
        特斯拉的工程師想要創建一個深度學習系統,該系統可以執行物體檢測以及深度、速度和加速度。他們決定將挑戰視為監督學習問題,其中神經網絡在對帶注釋的數據進行訓練后學習檢測對象及其相關屬性。
         
        為了訓練他們的深度學習架構,Tesla團隊需要一個包含數百萬個視頻的海量數據集,并用它們包含的對象及其屬性仔細注釋。為自動駕駛汽車創建數據集特別棘手,工程師必須確保包含不經常發生的各種道路設置和邊緣情況。
         
        “當你擁有一個龐大、干凈、多樣化的數據集,并在其上訓練一個大型神經網絡時,我在實踐中看到的是……成功是有保證的,”Karpathy說。
         
        自動標記數據集
         
        特斯拉在全球銷售了數百萬輛配備攝像頭的汽車,在收集訓練汽車視覺深度學習模型所需的數據方面處于有利地位。特斯拉自動駕駛團隊積累了1.5 PB的數據,其中包括100萬個10秒視頻和60億個用邊界框、深度和速度標注的對象。
         
        但是標記這樣的數據集是一個巨大的挑戰。一種方法是通過數據標記公司或Amazon Turk 等在線平臺對其進行手動注釋。但這需要大量的手動工作,可能會花費一大筆錢,并且過程非常緩慢。
         
        相反,特斯拉團隊使用了一種自動標記技術,該技術涉及神經網絡、雷達數據和人工審查的組合。由于數據集是離線注釋的,神經網絡可以來回運行視頻,將它們的預測與真實情況進行比較,并調整它們的參數。這與測試時間推理形成對比,在測試時間推理中,一切都是實時發生的,深度學習模型無法追索。
         
        離線標記還使工程師能夠應用非常強大且計算密集型的對象檢測網絡,這些網絡無法部署在汽車上并用于實時、低延遲的應用程序。他們使用雷達傳感器數據進一步驗證了神經網絡的推論。所有這些都提高了標記網絡的精度。
         
        “如果您處于離線狀態,您可以事后諸葛亮,因此您可以更好地冷靜地融合 [不同的傳感器數據],”Karpathy 說。“此外,你可以讓人類參與進來,他們可以進行清理、驗證、編輯等工作。”
         
        根據 Karpathy 在 CVPR 上展示的視頻,物體檢測網絡通過碎片、灰塵和雪云保持一致。
         
        Karpathy 沒有說明對自動標記系統進行最終修正需要多少人力。但人類認知在引導自動標簽系統朝著正確方向發展方面發揮了關鍵作用。
         
        在開發數據集時,特斯拉團隊發現了200多個觸發器,表明對象檢測需要調整。其中包括諸如不同相機的檢測結果之間或相機與雷達之間的不一致等問題。他們還確定了可能需要特別注意的場景,例如隧道入口和出口以及頂部有物體的汽車。
         
        開發和掌握所有這些觸發器花了四個月的時間。隨著標簽網絡變得更好,它以“影子模式”部署,這意味著它安裝在消費車輛中并靜默運行,無需向汽車發出命令。將網絡的輸出與傳統網絡、雷達和駕駛員行為的輸出進行比較。
         
        特斯拉團隊經歷了七次數據工程迭代。他們從一個初始數據集開始,在該數據集上訓練他們的神經網絡。然后,他們在真實汽車上以影子模式部署深度學習,并使用觸發器來檢測不一致、錯誤和特殊場景。然后修改、糾正錯誤,并在必要時將新數據添加到數據集中。
         
        “我們一遍又一遍地旋轉這個循環,直到網絡變得非常好,”Karpathy說。
         
        因此,該架構可以更好地描述為具有巧妙分工的半自動標記系統,其中神經網絡執行重復性工作,人類處理高級認知問題和極端情況。
         
        有趣的是,當一位與會者問Karpathy是否可以自動生成觸發器時,他說,“[自動化觸發器] 是一個非常棘手的場景,因為您可以擁有通用觸發器,但它們不會正確表示錯誤模式. 例如,很難自動觸發進入和退出隧道的觸發器。這是你作為一個人必須直覺[強調我的]這是一個挑戰的語義上的東西......目前尚不清楚這將如何運作。”
         
        分層深度學習架構
         
        特斯拉的自動駕駛團隊需要一個非常高效且設計精良的神經網絡,以充分利用他們收集的高質量數據集。
         
        該公司創建了一個分層深度學習架構,由不同的神經網絡組成,這些神經網絡處理信息并將其輸出提供給下一組網絡。
         
        深度學習模型使用卷積神經網絡從安裝在汽車周圍的八個攝像頭的視頻中提取特征,并使用變壓器網絡將它們融合在一起。然后跨時間融合它們,這對于諸如軌跡預測和平滑推理不一致的任務很重要。
         
        然后將空間和時間特征輸入到神經網絡的分支結構中,Karpathy將其描述為頭部、軀干和終端。
         
        “你想要這種分支結構的原因是因為你感興趣的輸出數量巨大,而且你不能為每個輸出都配備一個單一的神經網絡,”Karpathy說。
         
        層次結構可以為不同的任務重用組件,并在不同的推理路徑之間實現特征共享。
         
        網絡模塊化架構的另一個好處是分布式開發的可能性。特斯拉目前雇傭了一個龐大的機器學習工程師團隊,致力于自動駕駛神經網絡的研究。他們每個人都在網絡的一個小組件上工作,并將他們的結果插入到更大的網絡中。
         
        “我們有一個大約20人的團隊,他們正在全職訓練神經網絡。他們都在一個單一的神經網絡上進行合作,”Karpathy說。
         
        垂直整合
         
        在 CVPR 的演講中,Karpathy分享了有關特斯拉用來訓練和微調其深度學習模型的超級計算機的一些細節。
         
        計算集群由 80 個節點組成,每個節點包含 8 個具有 80 GB 視頻內存的 Nvidia A100 GPU,總計 5,760 個 GPU 和超過 450 TB 的 VRAM。這臺超級計算機還擁有 10 PB 的 NVME 超高速存儲和 640 tbps 的網絡容量,可連接所有節點并允許對神經網絡進行高效的分布式訓練。
         
        特斯拉還擁有并制造安裝在其汽車內的人工智能芯片。Karpathy說:“這些芯片是專門為我們想要為[全自動駕駛]應用運行的神經網絡而設計的。”
         
        特斯拉的一大優勢在于其垂直整合。特斯拉擁有整個自動駕駛汽車堆棧。它制造汽車和用于自動駕駛功能的硬件。它處于獨特的位置,可以從已售出的數百萬輛汽車中收集各種遙測和視頻數據。它還在其專有數據集、其特殊的內部計算集群上創建和訓練其神經網絡,并通過對其汽車的陰影測試來驗證和微調網絡。而且,當然,它擁有一支由機器學習工程師、研究人員和硬件設計師組成的非常有才華的團隊,可以將所有部分組合在一起。
         
        “您可以在該堆棧的所有層進行協同設計和工程,”Karpathy說。“沒有第三方阻止你。你完全掌握自己的命運,我認為這太不可思議了。”
         
        這種創建數據、調整機器學習模型并將其部署在許多汽車上的垂直整合和重復循環使特斯拉處于實現僅視覺自動駕駛汽車功能的獨特位置。在他的演講中,Karpathy展示了幾個示例,其中僅新神經網絡就超過了與雷達信息結合使用的傳統ML模型。
         
        如果系統繼續改進,正如Karpathy所說,特斯拉可能會走上淘汰激光雷達的軌道。而且我認為沒有任何其他公司能夠復制特斯拉的方法。
         
        開放式問題
         
        但問題仍然是,深度學習在目前的狀態下是否足以克服自動駕駛的所有挑戰。當然,物體檢測以及速度和范圍估計在駕駛中起著重要作用。但是人類視覺還執行許多其他復雜的功能,科學家將其稱為視覺的“暗物質”。這些都是對不同環境的視覺輸入和導航進行有意識和潛意識分析的重要組成部分。
         
        度學習模型也很難進行因果推理,當模型面臨他們以前從未見過的新情況時,這可能是一個巨大的障礙。因此,雖然特斯拉設法創建了一個非常龐大和多樣化的數據集,但開放的道路也是非常復雜的環境,新的和不可預測的事情隨時可能發生。
         
        AI社區在是否需要將因果關系和推理明確集成到深度神經網絡中存在分歧,或者是否可以通過“直接擬合”克服因果關系障礙,其中大型且分布良好的數據集足以達到通用深度學習。特斯拉基于視覺的自動駕駛團隊似乎更喜歡后者(盡管他們完全控制堆棧,他們將來總是可以嘗試新的神經網絡架構)。這項技術如何經受住時間的考驗將會很有趣。


        如果您想了解更多華芯霍爾元件產品信息,歡迎訪問我們的官網https://www.wxhxkj.com/或者https://www.chhxs.cn/,無錫華芯科技竭誠為您服務!

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。




        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 沛县| 句容市| 加查县| 大荔县| 虎林市| 水富县| 永登县| 游戏| 疏附县| 潞城市| 石台县| 南靖县| 海伦市| 棋牌| 镇雄县| 许昌县| 彰武县| 合水县| 桑日县| 灵璧县| 南投县| 华容县| 香河县| 自贡市| 门源| 恩平市| 连南| 柳河县| 绵阳市| 北川| 温州市| 红河县| 泾源县| 定兴县| 正镶白旗| 临沂市| 高青县| 清镇市| 怀柔区| 柯坪县| 喜德县|