Google DeepMind 的 Q-Transformer：概述

Q 變壓器，由 Yevgen Chebotar、Quan Vuong 等人領導的 Google DeepMind 團隊開發，是一種為離線強化學習而開發的新型架構，具有大容量 Transformer 模型，特別適合大規模、多任務機器人強化學習 (RL)。它旨在利用人類演示和自主收集的數據，從廣泛的離線數據集中訓練多任務策略。它是一種強化學習方法，利用人類演示和自主收集的數據，從大型離線數據集中訓練多任務策略。此實作使用 Transformer 為透過離線時間差異備份訓練的 Q 函數提供可擴展的表示。 Q-Transformer 的設計使其能夠應用於大型且多樣化的機器人資料集，包括現實世界的數據，並且它在各種機器人操作任務上表現出優於先前的離線RL 演算法和模仿學習技術。

Q-Transformer 的主要特性與貢獻

Q 函數的可擴展表示：Q-Transformer 使用 Transformer 模型為 Q 函數提供可擴展表示，並透過離線時間差異備份進行訓練。這種方法為 Q 學習提供了有效的高容量序列建模技術，這在處理大型且多樣化的資料集時特別有利。

Q 值的每維度標記化：此架構獨特地標記每個動作維度的 Q 值，使其能夠有效地應用於廣泛的現實世界機器人任務。這已經透過在模擬環境和現實世界實驗中學習的大規模文本條件多任務策略得到了驗證。

創新的學習策略：Q-Transformer 結合了離散 Q-學習、用於從離線資料集學習的特定保守 Q 函數正規化器，以及使用蒙特卡羅和 n 步返回來提高學習效率。

解決強化學習中的挑戰：它透過最小化分佈外動作的 Q 函數來解決強化學習中常見的由於分佈變化而導致的過度估計問題。這在處理稀疏獎勵時尤其重要，其中正則化 Q 函數可以避免採用負值，儘管所有瞬時獎勵都是非負的。

限制與未來方向：Q-Transformer 目前的實作著重於稀疏二元獎勵任務，主要用於情境機器人操作問題。由於序列長度和推理時間增加，它在處理高維動作空間方面有其限制。未來的發展可能會探索自適應離散化方法，並將 Q-Transformer 擴展到線上微調，從而更有效地自主改進複雜的機器人策略。

要使用 Q-Transformer，通常從 Q-Transformer 庫匯入必要的元件，使用特定參數（例如動作數量、動作箱、深度、頭和遺失機率）設定模型，並在資料集。 Q-Transformer 的架構包括用於處理影像的 Vision Transformer (ViT) 和用於高效學習的決鬥網路結構等元素。

Q-Transformer 的開發和開源得到了 StabilityAI、A16Z 開源人工智慧資助計劃和 Huggingface 等贊助商的支持。

總而言之，Q-Transformer 代表了機器人強化學習領域的重大進步，為在多樣化和大規模資料集上訓練機器人提供了一種可擴展且高效的方法。

圖片來源：Shutterstock

資料來源：https://blockchain.news/analysis/google-deepminds-q-transformer-an-overview