We argue that current techniques re

We argue that current techniques restrict the power of the pre-trained representations, especially for the fine-tuning approaches. The major limitation is that standard language models are unidirectional, and this limits the choice of architectures that can be used during pre-training. For example, in OpenAI GPT, the authors use a left-toright architecture, where every token can only attend to previous tokens in the self-attention layers of the Transformer (Vaswani et al., 2017). Such restrictions are sub-optimal for sentence-level tasks, and could be very harmful when applying finetuning based approaches to token-level tasks such as question answering, where it is crucial to incorporate context from both directions.In this paper, we improve the fine-tuning based approaches by proposing BERT: Bidirectional Encoder Representations from Transformers. BERT alleviates the previously mentioned unidirectionality constraint by using a “masked language model” (MLM) pre-training objective, inspired by the Cloze task (Taylor, 1953). The masked language model randomly masks some of the tokens from the input, and the objective is to predict the original vocabulary id of the masked arXiv:1810.04805v2 [cs.CL] 24 May 2019 word based only on its context. Unlike left-toright language model pre-training, the MLM objective enables the representation to fuse the left and the right context, which allows us to pretrain a deep bidirectional Transformer. In addition to the masked language model, we also use a “next sentence prediction” task that jointly pretrains text-pair representations. The contributions of our paper are as follows:

0/5000

原始語言: -

目標語言: -

結果 (繁體中文) 1: [復制]

復制成功！

我們認為，目前的技術限制預先訓練交涉的權力，特別是對微調方法。主要的限制是標準的語言模型是單向的，這限制了可以在崗前培訓中使用的架構的選擇。例如，在OpenAI GPT，作者用左toright結構，其中每一個令牌可以只參加在變壓器的自我關注層之前的令牌（瓦斯瓦尼等，2017）。這樣的限制是次優的句子級的任務，並應用基於微調的方法來標記級別的任務，如問答，它是至關重要的，從兩個方向結合上下文時可能是非常有害的。 在本文中，我們改善建議BERT微調基礎的方法：從變形金剛雙向編碼器交涉。BERT使用“掩蓋語言模型”緩解了前面提到的單向約束（MLM）前的訓練目標，通過完形填空任務（泰勒，1953年）的啟發。經掩碼的語言模型隨機掩模一些從輸入令牌的，並且目標是預測的掩蔽的arXiv的原始詞彙ID：1810.04805v2 [cs.CL] 2019年5月24日字僅基於其上下文。與左toright語言模型前培訓，傳銷目標能夠融合的左側和右側背景下，這使我們能夠pretrain了深刻的雙向變壓器表示。除了掩蓋語言模型，同時我們也使用“下句預測”的任務，共同pretrains文本對表示。是我們的論文的貢獻如下：

正在翻譯中..

結果 (繁體中文) 2:[復制]

復制成功！

我們認為，目前的技術限制了預先訓練的表示的力量，特別是對於微調方法。主要限制是標準語言模型是單向的，這限制了在預培訓期間可以使用的體系結構的選擇。例如，在 OpenAI GPT 中，作者使用從左至右的體系結構，其中每個權杖只能關注變壓器自關注層中的先前權杖（Vaswani 等人，2017 年）。此類限制對於句子級任務來說並不理想，並且在將基於微調的方法應用於權杖級任務（如問題解答）時可能非常有害，其中從兩個方向合併上下文至關重要。 在本文中，我們提出了BERT：來自變壓器的雙向編碼器表示，從而改進了基於微調的方法。BERT 使用"遮罩語言模型"（MLM）預培訓目標，受 Cloze 任務啟發（Taylor，1953 年），緩解了上述單向約束。蒙版語言模型隨機遮罩輸入中的一些標記，目標是預測遮罩 arXiv：1810.04805v2 _cs 的原始詞彙 ID。CL_ 2019年5月24日字僅基於其上下文。與左到右語言模型的預訓練不同，MLM 目標使表示形式能夠將左右上下文融合在一起，從而使我們能夠預訓練深度雙向變壓器。除了遮罩語言模型之外，我們還使用"下一個句子預測"任務，共同預訓練文本對表示形式。我們的論文供稿如下：

正在翻譯中..

結果 (繁體中文) 3:[復制]

復制成功！

我們認為現時的科技限制了預訓練表示的能力，特別是對於微調方法。主要的限制是標準語言模型是單向的，這限制了可以在預培訓期間使用的體系結構的選擇。例如，在OpenAI GPT中，作者使用了一個左至右的架構，其中每個權杖只能處理Transformer的self-attention層中以前的權杖（Vaswani等人，2017）。這樣的限制對於句子級任務來說是次優的，並且當將基於精細調整的方法應用於諸如問答之類的權杖級任務時可能會非常有害，在這些任務中，從兩個方向合併上下文是至關重要的。 在本文中，我們改進了基於微調的方法，提出了BERT：來自變壓器的雙向編碼器表示。BERT在完形填空任務（Taylor，1953）的啟發下，通過使用一個“蒙面語言模型”（MLM）的預訓練目標來緩解前面提到的單向性約束。遮罩語言模型隨機遮罩輸入中的一些標記，目的是僅基於上下文預測遮罩arXiv:1810.04805v2[cs.CL]2019年5月24日單詞的原始詞彙id。與左-右語言模型的預訓練不同，傳銷的目標使表現融合了左和右上下文，這使得我們可以預先訓練一個深層的雙向轉換器。除了蒙面語言模型外，我們還使用了一個“下一句預測”任務，該任務聯合預處理文字對表示。本文的貢獻如下：

正在翻譯中..

其它語言

本翻譯工具支援: 世界語, 中文, 丹麥文, 亞塞拜然文, 亞美尼亞文, 伊博文, 俄文, 保加利亞文, 信德文, 偵測語言, 優魯巴文, 克林貢語, 克羅埃西亞文, 冰島文, 加泰羅尼亞文, 加里西亞文, 匈牙利文, 南非柯薩文, 南非祖魯文, 卡納達文, 印尼巽他文, 印尼文, 印度古哈拉地文, 印度文, 吉爾吉斯文, 哈薩克文, 喬治亞文, 土庫曼文, 土耳其文, 塔吉克文, 塞爾維亞文, 夏威夷文, 奇切瓦文, 威爾斯文, 孟加拉文, 宿霧文, 寮文, 尼泊爾文, 巴斯克文, 布爾文, 希伯來文, 希臘文, 帕施圖文, 庫德文, 弗利然文, 德文, 意第緒文, 愛沙尼亞文, 愛爾蘭文, 拉丁文, 拉脫維亞文, 挪威文, 捷克文, 斯洛伐克文, 斯洛維尼亞文, 斯瓦希里文, 旁遮普文, 日文, 歐利亞文 (奧里雅文), 毛利文, 法文, 波士尼亞文, 波斯文, 波蘭文, 泰文, 泰盧固文, 泰米爾文, 海地克里奧文, 烏克蘭文, 烏爾都文, 烏茲別克文, 爪哇文, 瑞典文, 瑟索托文, 白俄羅斯文, 盧安達文, 盧森堡文, 科西嘉文, 立陶宛文, 索馬里文, 紹納文, 維吾爾文, 緬甸文, 繁體中文, 羅馬尼亞文, 義大利文, 芬蘭文, 苗文, 英文, 荷蘭文, 菲律賓文, 葡萄牙文, 蒙古文, 薩摩亞文, 蘇格蘭的蓋爾文, 西班牙文, 豪沙文, 越南文, 錫蘭文, 阿姆哈拉文, 阿拉伯文, 阿爾巴尼亞文, 韃靼文, 韓文, 馬來文, 馬其頓文, 馬拉加斯文, 馬拉地文, 馬拉雅拉姆文, 馬耳他文, 高棉文, 等語言的翻譯.