其中 R 為 z,執行 Q 後觀察到的獎勵,並在 Alpha _{t}(s,a) (0 < Alpha leq 1) 是 (可能是所有對相同) 的學習率。Q:S imes A o mathbb {R}在開始學習之前,Q 返回 (任意) 固定值,選擇設計器。然後,每次代理選擇的動作,並觀察獎勵並更新新的狀態,可能取決於以前的狀態和選定的操作,"Q"。該演算法的核心是一個簡單的值反覆運算更新。它假定舊值,使校正基於新的資訊。Q-學習• 假設沒有知識的 R 或 t。• 保持一種所有國家行動對表查找資料結構 Q (估計數 Q *)• 當過渡 s r s' 發生時,做Q(s,a) ←α (r + γ maxQ(s′,a′))+(1−α)Q(s,a) a ′• 基本上實現了一種非同步蒙特 Carlo 值反覆運算,使用示例備份• 保證最終收斂到 Q *,只要每一國家行動對無限經常取樣 Q-學習• 這種做法是比它看起來更聰明: Q 值不會被任何特定勘探策略偏差。它避免了信貸分配問題。• 收斂性的證明延伸到任何備選案文中的每個 Q(s,a) 是無限常更新,無論是網上還是不。
正在翻譯中..