TD LearningAfter making a transition from s to s’ and receiving reward的繁體中文翻譯

TD LearningAfter making a transitio

TD Learning
After making a transition from s to s’ and receiving reward r, we nudge V(s) to be closer to the estimated return based on the observed successor, as follows:
V (s ) ← α (r + γ V (s ′ )) + (1 − α )V (s )
α is called a “learning rate” parameter.
For α < 1 this represents a partial backup.
Furthermore, if the rewards and/or transitions are stochastic, as in a general MDP, this is a sample backup.
The reward and next-state values are only noisy estimates of the corresponding expectations, which is what offline DP would use in the appropriate computations (full backup).
Nevertheless, this converges to the return for a fixed policy (under the right technical assumptions, including decreasing learning rate)
0/5000
原始語言: -
目標語言: -
結果 (繁體中文) 1: [復制]
復制成功!
TD LearningAfter making a transition from s to s’ and receiving reward r, we nudge V(s) to be closer to the estimated return based on the observed successor, as follows:V (s ) ← α (r + γ V (s ′ )) + (1 − α )V (s )α is called a “learning rate” parameter.For α < 1 this represents a partial backup.Furthermore, if the rewards and/or transitions are stochastic, as in a general MDP, this is a sample backup.The reward and next-state values are only noisy estimates of the corresponding expectations, which is what offline DP would use in the appropriate computations (full backup).Nevertheless, this converges to the return for a fixed policy (under the right technical assumptions, including decreasing learning rate)
正在翻譯中..
結果 (繁體中文) 2:[復制]
復制成功!
TD學習
從S到正使過渡“,並接受獎勵R,我們微調V(S)更接近根據觀察到的繼任者預計收益,具體如下之後
:V(S)←α(R +γV( S'))+(1 -
α)V(S)α 被稱為“學習率”的參數。
對於α<1,這代表一個局部備份。
另外,如果獎勵和/或轉換是隨機的,因為在一般的MDP,這是一個示例備份。
獎勵和下一個狀態值是對應的期望,這是離線的DP將在適當的計算使用什麼(完全備份)只有噪聲的估計。
然而,這種收斂為換取固定政策(下正確的技術假設,包括降低學習率)
正在翻譯中..
結果 (繁體中文) 3:[復制]
復制成功!
後的S和R接收獎勵使過渡學習
TD,我們用V(S)是接近的估計回報基於觀察到的繼任者,如下:
V(S)←α(RγV(S′))(1−α)V(S)
α叫做“學習率”參數。
為α<1這代表了部分備份。
此外,如果回報和/或轉換是隨機的,在一般的MDP,這是一個樣本的備份。
獎勵和下一個狀態值只有嘈雜的估計相應的期望,這就是離線DP會使用適當的計算(完全備份)。
然而,這種收斂到一個固定的返還政策(正確的科技假設,包括降低學習率)
正在翻譯中..
 
其它語言
本翻譯工具支援: 世界語, 中文, 丹麥文, 亞塞拜然文, 亞美尼亞文, 伊博文, 俄文, 保加利亞文, 信德文, 偵測語言, 優魯巴文, 克林貢語, 克羅埃西亞文, 冰島文, 加泰羅尼亞文, 加里西亞文, 匈牙利文, 南非柯薩文, 南非祖魯文, 卡納達文, 印尼巽他文, 印尼文, 印度古哈拉地文, 印度文, 吉爾吉斯文, 哈薩克文, 喬治亞文, 土庫曼文, 土耳其文, 塔吉克文, 塞爾維亞文, 夏威夷文, 奇切瓦文, 威爾斯文, 孟加拉文, 宿霧文, 寮文, 尼泊爾文, 巴斯克文, 布爾文, 希伯來文, 希臘文, 帕施圖文, 庫德文, 弗利然文, 德文, 意第緒文, 愛沙尼亞文, 愛爾蘭文, 拉丁文, 拉脫維亞文, 挪威文, 捷克文, 斯洛伐克文, 斯洛維尼亞文, 斯瓦希里文, 旁遮普文, 日文, 歐利亞文 (奧里雅文), 毛利文, 法文, 波士尼亞文, 波斯文, 波蘭文, 泰文, 泰盧固文, 泰米爾文, 海地克里奧文, 烏克蘭文, 烏爾都文, 烏茲別克文, 爪哇文, 瑞典文, 瑟索托文, 白俄羅斯文, 盧安達文, 盧森堡文, 科西嘉文, 立陶宛文, 索馬里文, 紹納文, 維吾爾文, 緬甸文, 繁體中文, 羅馬尼亞文, 義大利文, 芬蘭文, 苗文, 英文, 荷蘭文, 菲律賓文, 葡萄牙文, 蒙古文, 薩摩亞文, 蘇格蘭的蓋爾文, 西班牙文, 豪沙文, 越南文, 錫蘭文, 阿姆哈拉文, 阿拉伯文, 阿爾巴尼亞文, 韃靼文, 韓文, 馬來文, 馬其頓文, 馬拉加斯文, 馬拉地文, 馬拉雅拉姆文, 馬耳他文, 高棉文, 等語言的翻譯.

Copyright ©2024 I Love Translation. All reserved.

E-mail: