計算機視覺的進步推動交通自治

自動駕駛汽車正在識別路標。計算機視覺和人工智能 …[+] 概念。

蓋蒂

視覺是一種強大的人類感官輸入。它使我們認為理所當然的複雜任務和流程成為可能。隨著從交通運輸和農業到機器人和醫學等各種應用中 AoT™（物聯網）的增加，相機、計算和機器學習在提供類人視覺和認知方面的作用變得越來越重要。計算機視覺作為一門學科在 1960 年代開始興起，主要是在從事新興人工智能 (AI) 和機器學習領域的大學中。隨著半導體和計算技術的重大進步，它在接下來的四年中取得了巨大的進步。深度學習和人工智能的最新進展進一步加速了計算機視覺的應用，以提供對環境的實時、低延遲感知和認知，從而在各種應用中實現自主、安全和高效。交通運輸是受益匪淺的領域之一。

LiDAR（光探測和測距）是一種主動光學成像方法，它使用激光來確定物體周圍的 3D 環境。這是計算機視覺解決方案（純粹依賴環境光，不使用激光進行 3D 感知）試圖顛覆的技術之一。共同的主題是人類駕駛員不需要激光雷達來進行深度感知，機器也不需要。目前的商用 L3 自動駕駛功能（在特定地理和天氣條件下完全自主，駕駛員可以在幾秒鐘內完成控制）產品今天使用激光雷達. 純粹基於視覺的技術仍然無法在商業上提供這種能力。

特斯拉TSLA
是使用基於被動攝像頭的計算機視覺來提供乘用車自主性的主要支持者。在公司最近的 AI Day 活動中，Elon Musk 和他的工程師提供了令人印象深刻的演示其人工智能、數據管理和計算能力，除其他舉措外，還支持多款特斯拉車型的全自動駕駛 (FSD) 功能。 FSD 要求人類駕駛員始終從事駕駛任務（這與 L2 自主性一致）。目前，該選項適用於美國和加拿大客戶購買的 160,000 輛汽車。每輛車上的一套 8 個攝像頭可提供 360° 佔用地圖。來自這些車輛的攝像頭（和其他）數據用於訓練其神經網絡（使用自動標記）來識別物體、繪製潛在的車輛軌跡、選擇最佳軌跡並激活適當的控制動作。在過去的 75 個月中，隨著不斷收集新數據並檢測到標記錯誤或操縱錯誤，神經網絡發生了約 12K 更新（每 1 分鐘更新約 7 次）。訓練有素的網絡通過專用計算電子設備的板載冗餘架構執行規劃和控制操作。特斯拉預計 FSD 最終將導致自動駕駛汽車 (AV)，它在某些操作設計領域提供完全自主，無需人工參與（也稱為 L4 自主）。

其他公司，如 Phiar、Helm.ai 和 NODAR 也在追求計算機視覺的道路。 NODAR 旨在通過獲得專利的機器學習算法學習調整相機錯位和振動效應，從而顯著擴大立體相機系統的成像範圍和 3D 感知。它最近籌集了 12 萬美元用於其旗艦產品 Hammerhead™ 的產品化，該產品利用“現成的”汽車級相機和標準計算平台。

除了成本和尺寸之外，反對使用 LiDAR 的一個常見論點是，與相機相比，它的範圍和分辨率有限。例如，目前可以使用具有 200 m 範圍和 5-10 M 點/秒（PPS 類似於分辨率）的 LiDAR。在 200 m 處，磚塊或輪胎碎片等小障礙物將記錄很少的點（垂直方向可能 2-3 個，水平方向可能 3-5 個），使物體識別變得困難。在更長的範圍內事情變得更加粗糙。相比之下，以 30 Hz 運行的標準百萬像素相機每秒可產生 30 萬像素，即使在遠距離也能實現出色的物體識別。更先進的相機（12 萬像素）可以進一步提高這一點。問題是如何利用這些海量數據並產生具有毫秒級延遲、低功耗和劣化照明條件的可操作感知。

認出一家總部位於加利福尼亞的公司正試圖解決這個問題。根據首席執行官 Mark Bolitho 的說法，其使命是“為全自動駕駛汽車提供超人的視覺感知。” 該公司成立於 2017 年，迄今已籌集 75 萬美元，擁有 70 名員工。 RK Anand 是瞻博網絡的校友，也是聯合創始人和首席產品官之一。他認為，使用具有 > 120 dB 動態範圍、以高幀速率運行的更高分辨率相機（例如 OnSemi、Sony 和 Omnivision）可以提供創建高分辨率 3D 信息所需的數據，這對於實現 AV 至關重要。促成這一點的因素是：

定制設計的 ASIC 可高效處理數據並生成準確的高分辨率 3D 汽車環境地圖。它們採用 TSMC 7 nm 工藝製造，芯片尺寸為 100 mm²，工作頻率為 1 GHz。
專有的機器學習算法離線處理數百萬個數據點以創建經過訓練的神經網絡，然後可以高效運行並持續學習。該網絡提供感知，包括對象分類和檢測、語義分割、車道檢測、交通標誌和紅綠燈識別
最大限度地減少片外存儲和乘法運算，這些運算是功率密集型的並會產生高延遲。 Recogni 的 ASIC 設計針對對數數學進行了優化並使用了加法。通過在訓練有素的神經網絡中對權重進行最佳聚類，可以進一步提高效率。

在訓練階段，商用 LiDAR 被用作地面實況來訓練高分辨率、高動態範圍的立體相機數據，以提取深度信息並使其對未對準和振動效應具有魯棒性。根據 Anand 先生的說法，他們的機器學習實施非常高效，可以推斷出超出校準 LiDAR 提供的訓練範圍的深度估計（它提供了 100 m 範圍內的地面實況）。

圖 1：綠色框顯示 Recogni 感知堆棧在 3 訓練數據上的 100D 性能 …[+] 米範圍。藍色箭頭顯示在 130 m 訓練數據之外的距離處的深度感知。

認出

上面的訓練數據是在白天使用一對 8.3 兆像素的立體相機以 30 Hz 幀速率（每秒約 0.5B 像素）運行的。它展示了經過訓練的網絡能夠在超出其訓練範圍的 3 m 範圍內提取場景中的 100D 信息。 Recogni 的解決方案還可以將其對白天數據的學習推斷為夜間性能（圖 2）。

圖 2：根據白天數據訓練的 Recogni 感知堆棧也在較低光照水平下表現出色 …[+] 夜間條件

認出

根據 Anand 先生的說法，距離數據的準確度在 5% 以內（遠距離）和接近 2%（近距離）。該方案提供1000 TOPS（每秒萬億次操作），6 ms延遲和25W功耗（40 TOPS/W），行業領先。使用整數數學的競爭對手在這個指標上要低 10 倍以上。 Recogni 的解決方案目前正在多家汽車一級供應商進行試驗。

先知 （“預測並查看行動在哪裡”）總部位於法國，將其基於事件的攝像頭用於 AV、高級駕駛輔助系統 (ADAS)、工業自動化、消費者應用和醫療保健。成立於2014年，公司最近完成了 50 萬美元的 C 輪融資，迄今為止共籌集了 127 億美元。領先的手機製造商小米是投資者之一。 Prophesee 的目標是模擬人類視覺，其中視網膜中的受體對動態信息作出反應。人腦專注於處理場景中的變化（尤其是駕駛）。基本思想是使用相機和像素架構來檢測超過閾值（事件）的光強度變化，並僅將這些數據提供給計算堆棧以進行進一步處理。像素以異步方式工作（不像普通 CMOS 相機那樣成幀）並且速度要快得多，因為它們不必像傳統的基於幀的相機那樣集成光子，並在讀取數據之前等待整個幀完成。優點是顯著的——更低的數據帶寬、決策延遲、存儲和功耗。該公司首款基於事件的商用級 VGA 視覺傳感器具有高動態範圍 (>120 dB)、低功耗（傳感器級別為 26 mW 或 3 nW/事件）的特點。還推出了具有行業領先像素尺寸（< 5 μm）的高清（高清）版本（與索尼聯合開發）。

圖 3：聯合開發的 5 um 像素間距的基於事件的高清格式成像傳感器 …[+] 與索尼

先知

這些傳感器構成了 Metavision® 傳感平台的核心，該平台使用 AI 為自動駕駛應用程序提供智能高效的感知，並正在受到交通領域多家公司的評估。除了 AV 和 ADAS 的前向感知外，Prophesee 還積極與客戶合作，對 L2 和 L3 應用的駕駛員進行車內監控，見圖 4：

圖 4：基於受人類啟發的神經形態視覺的 XPERI 車內駕駛員監控

先知

汽車領域的機會是有利可圖的，但設計週期很長。在過去的兩年中，Prophesee 對工業應用的機器視覺領域產生了極大的興趣和吸引力。其中包括高速計數、表面檢測和振動監測。

圖 5：使用基於事件的相機的高計數

先知

Prophesee 最近宣布合作與機器視覺系統的領先開發商合作，利用工業自動化、機器人技術、汽車和物聯網（物聯網）領域的機會。其他直接機會是用於手機和 AR/VR 應用的圖像模糊校正。與用於長期 ADAS/AV 機會的傳感器相比，這些傳感器使用的傳感器格式更低，功耗更低，運行延遲顯著降低。

以色列是高科技領域的領先創新者，擁有大量風險投資和活躍的創業環境。自 2015 年以來，在技術領域發生了大約 70B 美元的風險投資. 其中一部分是在計算機視覺領域。 Mobileye 在 1999 年引領了這場革命，當時希伯來大學領先的 AI 研究員 Amnon Shashua 創立了該公司，專注於 ADAS 和 AV 的基於攝像頭的感知。公司於2014年申請IPO，被英特爾收購INTC
2017 年為 $15B。今天，它很容易成為計算機視覺和 AV 領域的領先者，最近宣布有意申請首次公開募股並成為一個獨立的實體。 Mobileye 的收入為每年 1.4B 美元，虧損不大（75 萬美元）。它為 50 家汽車 OEM 提供計算機視覺功能，這些 OEM 將其部署在 800 種汽車模型中以實現 ADAS 功能。未來，他們打算利用這種計算機視覺專業知識和基於英特爾矽光子學平台的激光雷達功能，引領 L4 級車輛自動駕駛（無需駕駛員）。 Mobileye 最終上市時的估值估計約為 50B 美元。

尚佩爾資本總部位於耶路撒冷，在投資開發基於計算機視覺的產品的公司方面處於領先地位，這些產品適用於從運輸和農業到安全和安全的各種應用。 Amir Weitman 是聯合創始人和管理合夥人，於 2017 年創辦了他的風險投資公司。第一隻基金向 20 家公司投資了 14 萬美元。他們的一項投資是 Innoviz，該公司於 2018 年通過 SPAC 合併上市，並成為 LiDAR 獨角獸。由 Omer Keilaf（來自以色列國防軍情報局技術部門）領導，如今，該公司已成為 ADAS 和 AV 激光雷達部署的領導者，並在寶馬和大眾汽車贏得了多項設計大獎。

Champel Capital 的第二隻基金（Impact Deep Tech Fund II）於 2022 年 30 月發起，迄今已籌集 100 萬美元（到 2022 年底目標為 12 億美元）。主要關注點是計算機視覺，在五家公司部署了 XNUMX 萬美元。其中三個將計算機視覺用於運輸和機器人技術。

坦克U， 總部位於海法，於 2018 年開始運營，並籌集了 10 萬美元的資金。丹·瓦爾德霍恩 (Dan Valdhorn) 是首席執行官，畢業於 8200 部隊，這是以色列國防軍內負責信號情報和代碼解密的精英高科技團隊。 TankU 的 SaaS（軟件即服務）產品在復雜的戶外環境中為車輛和司機提供服務，實現流程自動化和安全保護。車隊、私家車、加油站和充電站的車主使用這些產品來防止自動金融交易中的盜竊和欺詐。車輛燃料服務每年在全球產生約 $2T 的收入，其中私人和商用車隊所有者消耗 40% 或 $800B。由於盜竊和欺詐（例如，將車隊加油卡用於未經授權的私家車），零售商和車隊所有者每年損失約 100B 美元。 CNP（卡不存在）欺詐和篡改/竊取燃料是額外的損失來源，尤其是在移動應用程序中使用被盜卡詳細信息進行支付時。

該公司的 TUfuel 產品可促進一鍵式安全支付，阻止大多數類型的欺詐行為，並在懷疑存在欺詐行為時提醒客戶。它基於一個 AI 引擎來執行此操作，該引擎對來自這些設施中現有閉路電視的數據和數字交易數據（包括 POS 和其他後端數據）進行了訓練。車輛軌跡和動態、車輛 ID、行駛時間、里程、加油時間、燃料數量、燃料歷史和駕駛員行為等參數是一些用於檢測欺詐的屬性。這些數據還可以幫助零售商優化站點運營、提高客戶忠誠度並部署基於視覺的營銷工具。根據首席執行官 Dan Valdhorn 的說法，他們的解決方案可以檢測到 70% 的車隊、90% 的信用卡和 70% 的與篡改相關的欺詐事件。

圖 6：TUfuel 使用來自加油站閉路電視攝像機的實時數據和來自 …[+] 服務點和移動應用活動

坦克U

索諾爾是一家能源服務公司，在以色列擁有並運營著由 240 個加油站和便利店組成的網絡。 TUfuel 部署在他們的站點上，並展示了增強的安全性、欺詐預防和客戶忠誠度。與全球領先的加油站和便利店設備供應商合作，正在美國進行產品試驗。類似的舉措也在非洲和歐洲進行。

位於特拉維夫德祥由本古里安大學的機器學習學者於 2019 年創立。 ITC 創建 SaaS 產品 “在擁堵開始形成之前，通過智能操縱交通信號燈來測量交通流量、預測擁堵並緩解擁堵。” 與 TankU 類似，它使用來自現成攝像頭（已安裝在許多交通路口）的數據來獲取實時交通數據。分析來自整個城市的數千個攝像頭的數據，並通過應用專有的人工智能算法提取車輛類型、速度、運動方向和車輛類型（卡車與汽車）的順序等參數。模擬可提前 30 分鐘預測交通流量和潛在的交通擁堵情況。使用這些結果調整交通信號燈以平滑交通流量並防止擁堵。

圖 7：來自數千個攝像頭的數據由城市交通控制中的 VMS 編譯 …[+] 房間。 ITC 服務器通過訓練有素的 AI 算法處理這些數據以控制交通信號燈

德祥

訓練人工智能係統需要一個月的整個典型城市的視覺數據，並且涉及監督和非監督學習的結合。 ITC 的解決方案已經部署在特拉維夫（在 25 年全球最擁堵城市中排名第 2020 位），在數百個由紅綠燈控制的十字路口部署了數千個攝像頭。 ITC 的系統目前管理 75 輛汽車，預計將繼續增長。該公司正在安裝一個類似的能力盧森堡，並正在美國主要城市開始試驗。在全球範圍內，其解決方案管理著 300,000 輛汽車，在以色列、美國、巴西和澳大利亞設有運營基地。首席技術官 Dvir Kenig 熱衷於解決這個問題 - 讓人們恢復個人時間，減少溫室氣體排放，提高整體生產力，最重要的是，減少擁擠十字路口的事故。根據 Kenig 先生的說法， “我們的部署表明交通擁堵減少了 30%，減少了非生產性駕駛時間、壓力、燃料消耗和污染。”

室內機器人 是成立於2018 和最近籌集了 18 億美元資金. 該公司總部位於以色列特拉維夫附近，開發和銷售用於室內安保、安全和維護監控的自主無人機解決方案。首席執行官兼聯合創始人 Doron Ben-David 在 IAI 積累了豐富的機器人技術和航空經驗IAI
（主要國防主承包商）和 MAFAT（以色列國防部內的高級研究機構），類似於美國的 DARPA。對智能建築和商業安全市場的投資不斷增長，推動了對能夠在小型和大型內部商業空間（辦公室、數據中心、倉庫和零售空間）使用計算機視覺和其他感官輸入的自主系統的需求。 Indoor Robotics 通過使用配備現成攝像頭以及熱和紅外範圍傳感器的室內無人機來瞄準這個市場。

圖 8：Indoor Robotics 的自主無人機機隊可以通過安裝在天花板上的方式自行供電 …[+] 對接瓷磚。 Tando 控制橋處理數據並控制飛行路徑

室內機器人

Ofir Bar-Levav 是首席商務官。他解釋說，缺乏 GPS 阻礙了室內無人機在建築物內定位（通常 GPS 被拒絕或不准確）。此外，缺乏便捷高效的對接和供電解決方案。 Indoor Robotics 通過四個安裝在無人機上的攝像頭（上、下、左、右）和簡單的距離傳感器來解決這個問題，這些傳感器可以準確地映射室內空間及其內容。攝像頭數據（攝像頭提供定位和地圖數據）和熱傳感器（也安裝在無人機上）由人工智能係統分析，以檢測潛在的安全、安全和維護問題並提醒客戶。無人機通過安裝在天花板上的“對接板”為自己供電，這節省了寶貴的地面空間，並允許在充電時收集數據。在招聘、保留和培訓方面人力複雜且成本高昂的情況下，將這些平凡的流程自動化的財務優勢是顯而易見的。與地面機器人相比，使用空中無人機在資金和運營成本、更好地利用地面空間、在不遇到障礙物的情況下自由移動以及相機數據捕獲的效率方面也具有顯著優勢。根據 Bar-Levav 先生的說法，到 80 年，Indoor Robotics 在室內智能安全系統中的 TAM（總可尋址市場）將達到 2026B 美元。今天的主要客戶位置包括全球領先公司的倉庫、數據中心和辦公園區。

計算機視覺正在徹底改變自主遊戲——在運動自動化、安全、智能建築監控、欺詐檢測和交通管理方面。半導體和人工智能的力量是強大的推動力。一旦計算機以可擴展的方式掌握了這種令人難以置信的感官模式，可能性就無窮無盡。

資料來源：https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/