Q-learning is a model-free reinforc

Q-learning is a model-free reinforcement learning technique. Specifically, Q-learning can be used to find an optimal action-selection policy for any given (finite) Markov decision process (MDP). It works by learning an action-value function that ultimately gives the expected utility of taking a given action in a given state and following the optimal policy thereafter. A policy is a rule that the agent follows in selecting actions, given the state it is in. When such an action-value function is learned, the optimal policy can be constructed by simply selecting the action with the highest value in each state. One of the strengths of Q-learning is that it is able to compare the expected utility of the available actions without requiring a model of the environment. Additionally, Q-learning can handle problems with stochastic transitions and rewards, without requiring any adaptations. It has been proven that for any finite MDP, Q-learning eventually finds an optimal policy, in the sense that the expected value of the total reward return over all successive steps, starting from the current state, is the maximum achievable.

Ｑlearning can handle problems with stochastic transitions and rewards, without requiring any adaptations.

Ｑlearning can handle problems with stochastic transitions and rewards, without requiring any adaptations.

0/5000

原始語言: -

目標語言: -

結果 (繁體中文) 1: [復制]

復制成功！

Q-學習是一種無模型強化學習技術。具體地說，Q-學習可以用於查找任何給定 (有限) 瑪律可夫決策過程 (MDP) 的最優行動選擇策略。它的工作原理學習行動價值函數，最終給出了考慮給定的操作，在某一給定狀態和此後的最優策略後的期望的效用。政策是一項規則，代理所示選擇操作，給出了它的狀態。時學會了這種動作值函數，可以通過簡單地在每個狀態選擇行動的最高值與構造的最優策略。Q-學習的優點之一是能夠無需環境模型比較可用的操作的期望的效用。此外，Q-學習可處理問題具有隨機切換和獎勵，而不需要任何調整。結果證明，對於任何有限的 MDP，Q-學習最終找到最優的政策，在意義上，總回報預期值返回所有連續的步驟，從目前的狀態，開始是可以實現的最大。Qlearning 可以處理問題具有隨機切換和獎勵，無需任何調整。

正在翻譯中..

結果 (繁體中文) 2:[復制]

復制成功！

Q學習是一種無模型強化學習技術。具體地講，Q學習可以用來發現對於任何給定（有限）Markov決策過程（MDP）的最佳行動的選擇策略。它的工作原理是學習的動作值函數，最終給出了採取在給定的狀態下給定的動作，然後下面的最優策略的預期效用。策略是代理遵循在選擇行動的規則，因為它是在當這樣的行動值函數據悉，最優的政策，可以通過簡單的選擇，在每個州的最高值的動作構建的狀態。一Q學習的一個優勢是，它能夠比較可用的操作的預期效用，而不需要對環境的典範。此外，Q學習可以處理的問題與隨機轉換和回報，而無需任何改動。事實已經證明，對於任何有限MDP，Q學習，最終找到一個最優的政策，在某種意義上說，總的獎勵回報在所有連續步驟，從目前的狀態開始的期望值，就是最大可以實現的。Qlearning 可以處理問題隨機轉換和回報，而無需任何改動。

正在翻譯中..

結果 (繁體中文) 3:[復制]

復制成功！

學習是一種無模型强化學習科技。具體地說，學習可以在任何給定的最優行動選擇策略（有限）的瑪律可夫決策過程（MDP）。它通過學習一個動作值函數，最終給出了一個給定的操作，在一個給定的狀態，並在其後的最佳政策其後的預期效用。政策是一個規則，代理如下選擇行動，給出的狀態，它是在。當這樣的行動值函數被學習，可以構造的最優策略，通過簡單地選擇在每個狀態的最高值的行動。一個學習的優勢在於它能够比較有效的行動的期望效用不需要環境的模型。此外，學習可以處理隨機躍遷和獎勵的問題，而不需要任何修改。它已被證明，任何有限的MDP，Q-學習最終找到最優策略，在這個意義上，期望值的總回報收益超過所有連續的步驟，從當前的狀態，是可以達到的最大。

Q學習可以處理問題的隨機躍遷和獎勵，而不需要任何修改。

正在翻譯中..

其它語言

本翻譯工具支援: 世界語, 中文, 丹麥文, 亞塞拜然文, 亞美尼亞文, 伊博文, 俄文, 保加利亞文, 信德文, 偵測語言, 優魯巴文, 克林貢語, 克羅埃西亞文, 冰島文, 加泰羅尼亞文, 加里西亞文, 匈牙利文, 南非柯薩文, 南非祖魯文, 卡納達文, 印尼巽他文, 印尼文, 印度古哈拉地文, 印度文, 吉爾吉斯文, 哈薩克文, 喬治亞文, 土庫曼文, 土耳其文, 塔吉克文, 塞爾維亞文, 夏威夷文, 奇切瓦文, 威爾斯文, 孟加拉文, 宿霧文, 寮文, 尼泊爾文, 巴斯克文, 布爾文, 希伯來文, 希臘文, 帕施圖文, 庫德文, 弗利然文, 德文, 意第緒文, 愛沙尼亞文, 愛爾蘭文, 拉丁文, 拉脫維亞文, 挪威文, 捷克文, 斯洛伐克文, 斯洛維尼亞文, 斯瓦希里文, 旁遮普文, 日文, 歐利亞文 (奧里雅文), 毛利文, 法文, 波士尼亞文, 波斯文, 波蘭文, 泰文, 泰盧固文, 泰米爾文, 海地克里奧文, 烏克蘭文, 烏爾都文, 烏茲別克文, 爪哇文, 瑞典文, 瑟索托文, 白俄羅斯文, 盧安達文, 盧森堡文, 科西嘉文, 立陶宛文, 索馬里文, 紹納文, 維吾爾文, 緬甸文, 繁體中文, 羅馬尼亞文, 義大利文, 芬蘭文, 苗文, 英文, 荷蘭文, 菲律賓文, 葡萄牙文, 蒙古文, 薩摩亞文, 蘇格蘭的蓋爾文, 西班牙文, 豪沙文, 越南文, 錫蘭文, 阿姆哈拉文, 阿拉伯文, 阿爾巴尼亞文, 韃靼文, 韓文, 馬來文, 馬其頓文, 馬拉加斯文, 馬拉地文, 馬拉雅拉姆文, 馬耳他文, 高棉文, 等語言的翻譯.