where R is the reward observed after performing Q in Z, and where P is的繁體中文翻譯

where R is the reward observed afte

where R is the reward observed after performing Q in Z, and where P is the learning rate (may be the same for all pairs).
where R_{t+1} is the reward observed after performing a_{t} in s_{t},


Q:S imes A o mathbb {R}
Before learning has started, Q returns an (arbitrary) fixed value, chosen by the designer. Then, each time the agent selects an action, and observes a reward and a new state that may depend on both the previous state and the selected action, "Q" is updated. The core of the algorithm is a simple value iteration update. It assumes the old value and makes a correction based on the new information.


Q-learning
• Assume no knowledge of R or T.
• Maintain a table-lookup data structure Q (estimates of Q*) for all state-action pairs
• When a transition s r s’ occurs, do
Q(s,a)←α(r+γ maxQ(s′,a′))+(1−α)Q(s,a) a′
• Essentially implements a kind of asynchronous Monte Carlo value iteration, using sample backups
• Guaranteed to eventually converge to Q* as long as every state-action pair sampled infinitely often

Q-learning
• This approach is even cleverer than it looks: the Q values are not biased by any particular exploration policy. It avoids the credit assignment problem.
• The convergence proof extends to any variant in which every Q(s,a) is updated infinitely often, whether on-line or not.
0/5000
原始語言: -
目標語言: -
結果 (繁體中文) 1: [復制]
復制成功!
其中 R 為 z,執行 Q 後觀察到的獎勵和 P 在哪裡學習速率 (可能是所有對相同)。在哪裡 R_ {t + 1} 是觀察後進行 s_ {t},{t} 衣衫的獎賞Q:S imes A o mathbb {R}在開始學習之前,Q 返回 (任意) 固定值,選擇設計器。然後,每次代理選擇的動作,並觀察獎勵並更新新的狀態,可能取決於以前的狀態和選定的操作,"Q"。該演算法的核心是一個簡單的值反覆運算更新。它假定舊值,使校正基於新的資訊。Q-學習• 假設沒有知識的 R 或 t。• 保持一種所有國家行動對表查找資料結構 Q (估計數 Q *)• 當過渡 s r s' 發生時,做Q(s,a) ←α (r + γ maxQ(s′,a′))+(1−α)Q(s,a) a ′• 基本上實現了一種非同步蒙特 Carlo 值反覆運算,使用示例備份• 保證最終收斂到 Q *,只要每一國家行動對無限經常取樣 Q-學習• 這種做法是比它看起來更聰明: Q 值不會被任何特定勘探策略偏差。它避免了信貸分配問題。• 收斂性的證明延伸到任何備選案文中的每個 Q(s,a) 是無限常更新,無論是網上還是不。
正在翻譯中..
結果 (繁體中文) 2:[復制]
復制成功!
其中R是Z中執行Q後觀察到的獎勵,並且其中P為學習速率(可以是相同的所有對)。
其中R_ {T + 1}是在S_執行A_ {噸} {噸後觀察到的獎勵},問:小號次A 為 mathbb {R} 之前的學習已經開始,Q返回(任意)固定值,由設計者選擇。然後,每當代理選擇一個動作,並且觀察獎勵和一個新的狀態,可能同時取決於先前的狀態和所選擇的動作,“Q”被更新。該算法的核心是一個簡單的值迭代更新。它假定原來的值,並基於新的信息的修正。Q 學習•假設不知道R或T的•保持查表數據結構Q值的所有狀態-動作對(Q *的估計)• 當過渡SR s“的出現,執行Q(S,A)←α(R +γMAXQ(s”的,一個'))+(1-α)Q(S,a)一種'• 基本上實現了一種異步的蒙特卡洛值迭代,利用樣品備份•保證最終收斂於Q *,只要每一個國家的行動對採樣的無限頻繁Q學習•這種方法甚至聰明比它看起來:Q值的不受任何特定的勘探偏置政策。它避免了信用分配問題。• 收斂證明延伸到在其中每Q(S,a)的無限經常更新,是否上線或不任何變體。

















正在翻譯中..
結果 (繁體中文) 3:[復制]
復制成功!
其中R是執行Q Z後觀察到的獎勵,和P是學習率(可能是相同的所有對)。
r_ { 1 }是在表演a_ {T}在s_ {T}後觀察到的獎勵,


問:次 mathbb {紅}
學習之前已經開始,Q返回一個(任意)固定值,由設計者選擇。然後,每次代理選擇一個動作,並觀察一個獎勵和一個新的狀態,可能取決於以前的狀態和選定的行動,“問”是更新。該算灋的覈心是一個簡單的值反覆運算更新。它假定舊值進行修正的基礎上的新的資訊。


Q-學習
•假定沒有知識的R或T
•維持一個查找錶的資料結構的Q(Q *估計)所有的國家行動對
•過渡時的R S”時,做
Q(s,a)←α(RγMAXQ(S′,一′))(1−α)Q(s,a)一′
•基本上實現了一種非同步蒙特卡羅反覆運算值,採用樣品備份
•保證最終收斂到Q *只要每個國家的行動對採樣的無窮

Q-學習
•這種方法更是比它看起來:問題的價值不受任何特定的勘探政策的偏見。它避免了信用分配問題,即收斂證明延伸到任何一個變數中,每一個問題,一個是更新的,無論是在網上還是沒有。
正在翻譯中..
 
其它語言
本翻譯工具支援: 世界語, 中文, 丹麥文, 亞塞拜然文, 亞美尼亞文, 伊博文, 俄文, 保加利亞文, 信德文, 偵測語言, 優魯巴文, 克林貢語, 克羅埃西亞文, 冰島文, 加泰羅尼亞文, 加里西亞文, 匈牙利文, 南非柯薩文, 南非祖魯文, 卡納達文, 印尼巽他文, 印尼文, 印度古哈拉地文, 印度文, 吉爾吉斯文, 哈薩克文, 喬治亞文, 土庫曼文, 土耳其文, 塔吉克文, 塞爾維亞文, 夏威夷文, 奇切瓦文, 威爾斯文, 孟加拉文, 宿霧文, 寮文, 尼泊爾文, 巴斯克文, 布爾文, 希伯來文, 希臘文, 帕施圖文, 庫德文, 弗利然文, 德文, 意第緒文, 愛沙尼亞文, 愛爾蘭文, 拉丁文, 拉脫維亞文, 挪威文, 捷克文, 斯洛伐克文, 斯洛維尼亞文, 斯瓦希里文, 旁遮普文, 日文, 歐利亞文 (奧里雅文), 毛利文, 法文, 波士尼亞文, 波斯文, 波蘭文, 泰文, 泰盧固文, 泰米爾文, 海地克里奧文, 烏克蘭文, 烏爾都文, 烏茲別克文, 爪哇文, 瑞典文, 瑟索托文, 白俄羅斯文, 盧安達文, 盧森堡文, 科西嘉文, 立陶宛文, 索馬里文, 紹納文, 維吾爾文, 緬甸文, 繁體中文, 羅馬尼亞文, 義大利文, 芬蘭文, 苗文, 英文, 荷蘭文, 菲律賓文, 葡萄牙文, 蒙古文, 薩摩亞文, 蘇格蘭的蓋爾文, 西班牙文, 豪沙文, 越南文, 錫蘭文, 阿姆哈拉文, 阿拉伯文, 阿爾巴尼亞文, 韃靼文, 韓文, 馬來文, 馬其頓文, 馬拉加斯文, 馬拉地文, 馬拉雅拉姆文, 馬耳他文, 高棉文, 等語言的翻譯.

Copyright ©2024 I Love Translation. All reserved.

E-mail: