Model ArchitectureBERT’s model arch

Model ArchitectureBERT’s model architecture is a multi-layer bidirectional Transformer encoder based on the original implementation described in Vaswani et al. (2017) and released in the tensor2tensor library. Because the use of Transformers has become common and our implementation is almost identical to the original, we will omit an exhaustive background description of the model architecture and refer readers to Vaswani et al. (2017) as well as excellent guides such as “The Annotated Transformer.”In this work, we denote the number of layers (i.e., Transformer blocks) as L, the hidden size as H, and the number of self-attention heads as A. We primarily report results on two model sizes: BERTBASE (L=12, H=768, A=12, Total Parameters=110M) and BERTLARGE (L=24, H=1024, A=16, Total Parameters=340M).BERTBASE was chosen to have the same model size as OpenAI GPT for comparison purposes. Critically, however, the BERT Transformer uses bidirectional self-attention, while the GPT Transformer uses constrained self-attention where every token can only attend to context to its left.

0/5000

原始語言: -

目標語言: -

結果 (繁體中文) 1: [復制]

復制成功！

模型體系結構 BERT的模型體系結構是一個多層雙向基於在瓦斯瓦尼等人描述的原始實現變壓器編碼器。（2017年）和tensor2tensor庫發布。因為使用變壓器已成為普遍，我們的實現幾乎是相同的，原來，我們將忽略模型架構的詳盡背景描述，並指讀者瓦斯瓦尼等。（2017），以及良好的導如“附註的變壓器”。 在這項工作中，我們表示層（即，變壓器塊）為L時，隱藏的尺寸為H，並作為自注意頭的數量的數量答：我們主要在兩個模型大小報告結果：BERTBASE（L = 12，H = 768，A = 12，總參數= 110M）和BERTLARGE（L = 24，H = 1024，A = 16，總參數= 340M）。 BERTBASE選擇具有相同型號大小OpenAI GPT進行比較。重要的是，然而，BERT變壓器採用雙向自重視，而GPT變壓器採用約束自我的關注，每一個令牌可以只參加上下文其左。

正在翻譯中..

結果 (繁體中文) 2:[復制]

復制成功！

模型體系結構 BERT 的模型架構是基於 Vaswani 等人（2017）中描述的原始實現（2017 年）的多層雙向變壓器編碼器，並在張條2tensoror 庫中發佈。由於變形金剛的使用已經變得普遍，我們的實現幾乎與原始結構相同，我們將省略模型架構的詳盡背景描述，並將讀者介紹給 Vaswani 等人（2017 年）以及優秀指南，如"點名變壓器。 在這項工作中，我們將層數（即變壓器塊）表示為 L，隱藏大小表示為 H，自注意頭數表示為 A。我們主要報告兩種型號尺寸的結果：BERTBASE（L=12、H=768、A=12、總參數=110M）和BERTLARGE（L=24、H=1024、A=16、總參數=340M）。 為了比較目的，BERTBASE 被選擇具有與 OpenAI GPT 相同的型號大小。然而，關鍵的是，BERT變壓器使用雙向自我注意，而GPT變壓器使用受限的自我注意，每個權杖只能關注其左側的上下文。

正在翻譯中..

結果 (繁體中文) 3:[復制]

復制成功！

模型體系結構 BERT的模型結構是基於Vaswani等人描述的原始實現的多層雙向變壓器編碼器。（2017）並在Tensor2感測器庫中發佈。由於變形金剛的使用已經很普遍，而且我們的實現幾乎與原始版本相同，囙此我們將省略對模型體系結構的詳盡背景描述，並請讀者參閱Vaswani等人。（2017）以及優秀的指南，如“注釋變壓器” 在這項工作中，我們將層數（即，變壓器塊）表示為L，將隱藏大小表示為H，將自聚焦頭的數目表示為A。我們主要報告兩種模型大小的結果：BERTBASE（L=12，H=768，A=12，總參數=110M）和bertlige（L=24，H=1024，A=16，總參數=340M）。 為了進行比較，選擇了與OpenAI GPT具有相同模型大小的BERTBASE。然而，關鍵的是，BERT變換器使用雙向自我注意，而GPT變換器使用約束自我注意，其中每個權杖只能關注其左側的上下文。

正在翻譯中..

其它語言

本翻譯工具支援: 世界語, 中文, 丹麥文, 亞塞拜然文, 亞美尼亞文, 伊博文, 俄文, 保加利亞文, 信德文, 偵測語言, 優魯巴文, 克林貢語, 克羅埃西亞文, 冰島文, 加泰羅尼亞文, 加里西亞文, 匈牙利文, 南非柯薩文, 南非祖魯文, 卡納達文, 印尼巽他文, 印尼文, 印度古哈拉地文, 印度文, 吉爾吉斯文, 哈薩克文, 喬治亞文, 土庫曼文, 土耳其文, 塔吉克文, 塞爾維亞文, 夏威夷文, 奇切瓦文, 威爾斯文, 孟加拉文, 宿霧文, 寮文, 尼泊爾文, 巴斯克文, 布爾文, 希伯來文, 希臘文, 帕施圖文, 庫德文, 弗利然文, 德文, 意第緒文, 愛沙尼亞文, 愛爾蘭文, 拉丁文, 拉脫維亞文, 挪威文, 捷克文, 斯洛伐克文, 斯洛維尼亞文, 斯瓦希里文, 旁遮普文, 日文, 歐利亞文 (奧里雅文), 毛利文, 法文, 波士尼亞文, 波斯文, 波蘭文, 泰文, 泰盧固文, 泰米爾文, 海地克里奧文, 烏克蘭文, 烏爾都文, 烏茲別克文, 爪哇文, 瑞典文, 瑟索托文, 白俄羅斯文, 盧安達文, 盧森堡文, 科西嘉文, 立陶宛文, 索馬里文, 紹納文, 維吾爾文, 緬甸文, 繁體中文, 羅馬尼亞文, 義大利文, 芬蘭文, 苗文, 英文, 荷蘭文, 菲律賓文, 葡萄牙文, 蒙古文, 薩摩亞文, 蘇格蘭的蓋爾文, 西班牙文, 豪沙文, 越南文, 錫蘭文, 阿姆哈拉文, 阿拉伯文, 阿爾巴尼亞文, 韃靼文, 韓文, 馬來文, 馬其頓文, 馬拉加斯文, 馬拉地文, 馬拉雅拉姆文, 馬耳他文, 高棉文, 等語言的翻譯.