Let us plot the errors over the different training minibatches. Note t的繁體中文翻譯

Let us plot the errors over the dif

Let us plot the errors over the different training minibatches. Note that as we iterate the training loss decreases though we do see some intermediate bumps. The bumps indicate that during that iteration the model came across observations that it predicted incorrectly. This can happen with observations that are novel during model training.

One way to smoothen the bumps is by increasing the minibatch size. One could conceptually use the entire data set in every iteration. This would ensure the loss keeps consistently decreasing over iterations. However, this approach requires the gradient computations over all data points in the dataset and repeat those after locally updating the model parameters for a large number of iterations. For this toy example it is not a big deal. However with real world example, making multiple passes over the entire data set for each iteration of parameter update becomes computationally prohibitive.

Hence, we use smaller minibatches and using sgd enables us to have a great scalability while being performant for large data sets. There are advanced variants of the optimizer unique to CNTK that enable harnessing computational efficiency for real world data sets and will be introduced in advanced tutorials.
0/5000
原始語言: -
目標語言: -
結果 (繁體中文) 1: [復制]
復制成功!
讓我們在不同的訓練minibatches繪製錯誤。注意,我們反复訓練損耗降低,雖然我們確實看到了一些中間顛簸。在顛簸表明,該迭代過程中的模型,在它預測不正確的意見來了。這可以用在模型訓練過程中新穎的觀察發生。<br><br>以理順顛簸的一種方法是通過增加minibatch大小。人們可以在概念上使用整個數據在每次迭代設置。這將確保損失不斷減少持續超過迭代。然而,這種方法需要在數據集中的所有數據點的梯度計算和後本地更新模型參數進行大量的迭代重複這些。對於這個玩具例如,它是不是一個大問題。然而與現實世界的例子,在對參數更新的每次迭代整個數據集使得多次通過計算上變得令人望而卻步。<br><br>因此,我們使用更小的minibatches和使用SGD使我們有很大的可擴展性,同時高性能的大型數據集。有獨特的優化器CNTK,使利用對真實世界的數據集的計算效率,將在高級教程中引入先進的變體。
正在翻譯中..
結果 (繁體中文) 2:[復制]
復制成功!
讓我們在不同訓練小粒粒上繪製錯誤圖。請注意,當我們反覆運算訓練損失減少,雖然我們確實看到一些中間顛簸。凹凸表明,在反覆運算期間,模型遇到其預測錯誤的觀測值。在模型訓練期間,新奇的觀察結果可能會發生這種情況。<br><br>平滑凹凸的一種方法是增加小批量大小。可以在每次反覆運算中從概念上使用整個資料集。這將確保損失在反覆運算中持續減少。但是,此方法要求對資料集中的所有資料點進行梯度計算,並在本地更新模型參數以進行大量反覆運算後重複這些計算。對於這個玩具的例子,這沒什麼大不了的。但是,以實際示例為例,每次反覆運算參數更新對整個資料集進行多次傳遞,在計算上變得令人望而卻步。<br><br>因此,我們使用較小的小粒,使用 sgd 使我們能夠在大型資料集的性能時具有出色的可擴充性。CNTK 獨有優化器的高級變體,可實現實際資料集的計算效率,並將在高級教程仲介紹。
正在翻譯中..
結果 (繁體中文) 3:[復制]
復制成功!
讓我們在不同的訓練小批量上繪製錯誤。請注意,當我們反覆運算時,雖然我們確實看到一些中間的顛簸,但訓練損失會减少。顛簸表明,在反覆運算過程中,模型遇到了它預測錯誤的觀測值。這可能發生在模型訓練過程中新穎的觀察中。<br>平滑凹凸的一種方法是新增小批量大小。可以在每次反覆運算中概念性地使用整個數据集。這將確保損失在反覆運算期間持續减少。然而,這種方法需要對數據集中的所有數據點進行梯度計算,並在大量反覆運算中局部更新模型參數後重複這些計算。對於這個玩具的例子來說,這沒什麼大不了的。然而,以真實世界為例,為每次參數更新反覆運算對整個數据集進行多次傳遞在計算上變得令人望而卻步。<br>囙此,我們使用較小的小批量,並且使用sgd使我們能够在對大型數据集執行效能的同時具有很大的可伸縮性。cntk特有的優化器有一些高級變體,可以利用真實世界數据集的計算效率,並將在高級教程中介紹。<br>
正在翻譯中..
 
其它語言
本翻譯工具支援: 世界語, 中文, 丹麥文, 亞塞拜然文, 亞美尼亞文, 伊博文, 俄文, 保加利亞文, 信德文, 偵測語言, 優魯巴文, 克林貢語, 克羅埃西亞文, 冰島文, 加泰羅尼亞文, 加里西亞文, 匈牙利文, 南非柯薩文, 南非祖魯文, 卡納達文, 印尼巽他文, 印尼文, 印度古哈拉地文, 印度文, 吉爾吉斯文, 哈薩克文, 喬治亞文, 土庫曼文, 土耳其文, 塔吉克文, 塞爾維亞文, 夏威夷文, 奇切瓦文, 威爾斯文, 孟加拉文, 宿霧文, 寮文, 尼泊爾文, 巴斯克文, 布爾文, 希伯來文, 希臘文, 帕施圖文, 庫德文, 弗利然文, 德文, 意第緒文, 愛沙尼亞文, 愛爾蘭文, 拉丁文, 拉脫維亞文, 挪威文, 捷克文, 斯洛伐克文, 斯洛維尼亞文, 斯瓦希里文, 旁遮普文, 日文, 歐利亞文 (奧里雅文), 毛利文, 法文, 波士尼亞文, 波斯文, 波蘭文, 泰文, 泰盧固文, 泰米爾文, 海地克里奧文, 烏克蘭文, 烏爾都文, 烏茲別克文, 爪哇文, 瑞典文, 瑟索托文, 白俄羅斯文, 盧安達文, 盧森堡文, 科西嘉文, 立陶宛文, 索馬里文, 紹納文, 維吾爾文, 緬甸文, 繁體中文, 羅馬尼亞文, 義大利文, 芬蘭文, 苗文, 英文, 荷蘭文, 菲律賓文, 葡萄牙文, 蒙古文, 薩摩亞文, 蘇格蘭的蓋爾文, 西班牙文, 豪沙文, 越南文, 錫蘭文, 阿姆哈拉文, 阿拉伯文, 阿爾巴尼亞文, 韃靼文, 韓文, 馬來文, 馬其頓文, 馬拉加斯文, 馬拉地文, 馬拉雅拉姆文, 馬耳他文, 高棉文, 等語言的翻譯.

Copyright ©2024 I Love Translation. All reserved.

E-mail: