An asynchronouspipeline formed by C

An asynchronouspipeline formed by Click elements enables the circuits to work inpipeline mode without any sacrifice of speed because of the selftimed characteristic of asynchronous circuits. Each computingcore has a 5x5 registers array that is fully connected by anasynchronous Mesh network, by which the input data can be fullyreused. A novel computing pattern called convolution-andpooling-integrated computing, which combines convolution andpooling computing together, is proposed to reduce the access to theintermediate data. These yield an 88% decrease of the access tooff-chip memory, which significantly reduces energy consumption.A CNN model, LeNet-5, is implemented in our accelerator with theFPGA of Xilinx VC707. The asynchronous computing core has 84%less dynamic power than that of the synchronous core. Theefficiency achieves 30.03 GOPS/W, which is 2.1 times better thanthat of previous works.Keywords—CNN; Energy-Efficient; accelerator; AsynchronousI. In t r o d u c t io nConvolutional Neural Networks (CNN) have been widelyused in the field of computer vision and show its greatadvantages in image classification, object detection and videosurveillance [1]. The inference of CNNs is usually realized byCPU and GPU. However, the CPU has limited computingresources and parallelism. Although GPU outperforms CPU inthe inference of CNNs because it is designed for parallelcomputing of large-scale data, but GPU consumes too muchpower (for example: 33W for NVIDIA GTX840M, and 235Wfor NVIDIA Tesla K40 [2,3]). Hence, CNN accelerators requirea trade-off between flexibility and energy efficiency. As weknow, ASIC design can obtain the best power efficiency butonly a certain CNN model can be implemented in ASIC circuitbecause of its worst flexibility. FPGA shows acceptableperformance but its fine-grained computing and routingresources limit the power efficiency and runtime reconfigurationfor different CNNs. To obtain a better flexibility and energyefficiency, some CNN accelerators adopt a coarse-graineddynamic reconfigurable architecture (CGRA) such as theEyeriss from MIT [4] and the Thinker [ 1 ] with high performanceand flexibility. On the other hand, the asynchronous circuits arecharacterized by their local data- or control-driven flow ofoperations, which differs from the global clock-driven flow ofsynchronous designs. This character enables the differentportions of the asynchronous circuits to operate at theirindividual ideal “frequencies”—or rather to operate and idle asneeded, consuming energy only when and where needed. Clockgating has a similar goal—enabling registers only whenneeded—but does not address the power drawn by thecentralized control and clock-tree buffers [5]. As a result,asynchronous logic has been advocated as a means of reducingpower consumption in a number of applications [6,7]. IBM’sTrueNorth which successfully implements Spiking NeuronNetworks (SNN) has only 65mW power [8], and the dataflowprocessing unit (DPU) from Wave Computing company withasynchronous processing element achieves 181 TOPS. In thispaper, we propose an asynchronous accelerator with dynamicreconfigurable architecture to achieve great flexibility, lowpower and high energy efficiency.II. D e s ig n o f t h e CNN A c c e l e r a t o rA. Architecture o f the acceleratorThe top-level architecture is shown in Fig. 1, in which theinput data is stored in the off-chip DRAM. The configurationinformation from the controller will be input into thecomputation array including six cores together with the registersarray. According to the configuration information, the activationfunction of processing element (PE) in each core, pooling wayand size, and the direction of data flow in the registers array forinput data reuse will be determined. The computation array isresponsible for convolution and pooling computing layer bylayer. The computation results will be stored into DRAMthrough the output buffer.

0/5000

原始語言: -

目標語言: -

結果 (繁體中文) 1: [復制]

復制成功！

異步 通過點擊元件形成管道使電路工作 ，因為異步電路的自定時特性的無速度的任何犧牲管道模式。每個計算 內核具有5×5的寄存器陣列，其由完全連接 異步Mesh網絡，與所輸入的數據可以被完全 再利用。稱為一種新穎的計算圖案卷積andpooling集成計算，它結合了卷積和 匯集一起計算，提出了減少進入 中間數據。這些得到的訪問的88％的降低 的片外存儲器，其顯著降低了能耗。 CNN的模型，LeNet-5，在我們與加速器實現 賽靈思VC707的FPGA。異步計算芯具有84％ 比同步芯的較少的動態功耗。該 效率達到30.03 GOPS / W，這是優於2.1倍 ，以前的作品。 關鍵詞：CNN; 高效節能; 加速器; 異步 I.在troduct IOÑ 卷積神經網絡（CNN）已被廣泛 用於在計算機視覺的領域，並且顯示出巨大的 在圖像分類，對象檢測和視頻優點 監視[1]。細胞神經網絡的推理通常是通過實現 CPU和GPU。然而，在CPU有限的計算 資源和並行性。雖然GPU性能優於CPU 細胞神經網絡的推斷，因為它是專為並行 計算的大型數據，但GPU消耗了過多 的功率（例如：33W為NVIDIA GTX840M，和235W 為NVIDIA特斯拉K40 [2,3]）。因此，CNN加速器需要 的靈活性和能源效率之間的權衡。正如我們 知道，ASIC設計能夠獲得最佳的電源效率，但 只有在一定的CNN模型可以在ASIC電路來實現 ，因為它最糟糕的靈活性。FPGA示出可接受的 性能，但它的細粒度計算與路由 資源限制的功率效率和運行時重新配置 為不同的細胞神經網絡。為了獲得更好的靈活性和能量 效率，一些CNN加速器採用一個粗粒度 動態可重構體系結構（CGRA），諸如 Eyeriss從MIT [4]和思想者[1]具有高性能 和靈活性。在另一方面，異步電路 由它們的本地數據-或控制驅動的流動，其特徵在於 操作，這從全局時鐘驅動的流動的不同 同步設計。此字符使得不同 的異步電路的部分在它們的操作 個人理想的“頻率”是-OR，而操作和空閒 需要，耗能僅在需要的時間和地點。時鐘 門控只有當類似的目標，使寄存器 需要，但不解決由消耗的功率 集中控制和時鐘樹緩衝器[5]。結果是， 異步邏輯一直主張作為減少的手段 在許多應用[6,7]功耗。IBM的 TrueNorth它成功地實現尖峰神經元 網絡（SNN）只有65mW的功率[8]，以及數據流 從波計算公司處理單元（DPU）與 異步處理元件達到181 TOPS。在此 ，本文提出了動態異步加速器 重構架構，實現了極大的靈活性，低 功率和高能量效率。 II。d ES IG nofthe CNN甲ccelerator A.架構加速器的 圖1中示出的頂級架構中，其中，所述 輸入數據被存儲在片外DRAM。配置 來自控制器的信息將被輸入到 計算陣列，其包括六核與寄存器一起 陣列。根據所述配置信息，激活 在每個核心處理元件（PE），匯集方式的功能 和大小，以及數據的方向寄存器陣列，用於在流 輸入數據重用將被確定。計算陣列是 負責卷積和池通過計算層 層。計算結果將被保存到DRAM 通過輸出緩衝器。

正在翻譯中..

結果 (繁體中文) 2:[復制]

復制成功！

非同步 由 Click 元素形成的管道使電路能夠在 管線模式，由於非同步電路的自時位特性而犧牲速度。每種計算 內核具有 5x5 寄存器陣列，該陣列完全由 非同步網格網路，輸入資料可以完全 重用。一種稱為卷積和池集成計算的新型計算模式，它結合了卷積和 將計算集中起來，建議減少對 中間資料。這些使訪問減少 88%。 片外儲存體，可顯著降低能耗。 CNN 模型 LeNet-5 在我們的加速器中實現， 西林克斯VC707的FPGA。非同步計算核心具有 84% 比同步內核的動態功率要小。的 效率達到 30.03 GOPS/W，比 以前的作品。 關鍵字_CNN;節能;加速器;非同步 I. 在 t r o u t t o n 卷積神經網路（CNN）已被廣泛 用於電腦視覺領域，並顯示其偉大的 圖像分類、物件檢測和視頻方面的優勢 監視 [1]。CNN 的推理通常通過 CPU 和 GPU。但是，CPU 的計算有限 資源和並行性。儘管 GPU 在 CN的推論，因為它是為並行 計算大規模資料，但 GPU 消耗過多 功率（例如：33W 用於 NVIDIA GTX840M，235W NVIDIA 特斯拉 K40 [2，3]）。因此，CNN 加速器要求 靈活性和能源效率之間的權衡。正如我們 知道，ASIC 設計可以獲得最佳的電源效率，但 在ASIC電路中只能實現一定的CNN模型 因為它最差的靈活性。FPGA 顯示可接受 性能，但其細細微性計算和路由 資源限制電源效率和運行時重新配置 用於不同的 CNN。獲得更好的靈活性和能量 效率，一些CNN加速器採用粗細微性 動態可重構架構（CGRA），如 來自麻省理工學院的艾裡斯 [4] 和思考者 [ 1 ] 高性能 和靈活性。另一方面，非同步電路 其本地資料或控制驅動流的特點 操作，它不同于全域時鐘驅動的流 同步設計。此字元啟用不同的 部分非同步電路在其 個人的理想"頻率"-或更確切地說，操作和閒置 需要，只在需要時消耗能源。時鐘 門控具有類似的目標 — 僅在 需要，但不解決由 集中控制和時鐘樹緩衝區 [5]。因此， 非同步邏輯已被提倡作為一種手段，以減少 許多應用中的功耗 [6，7]。IBM 的 成功實現斯皮克神經元的 TrueNorth 網路（SNN）的功率僅為 65mW [8]，資料流程 來自波浪計算公司的處理單元（DPU） 非同步處理元素達到 181 TOPS。在此 論文，我們提出了一個非同步加速器與動態 可重新配置的架構，實現極大的靈活性，低 電力和高能效。 II. d. s i o o f r e CNN A c c e e r r a r A. 架構 o f 加速器 頂級體系結構如圖 1 所示，其中 輸入資料存儲在片外 DRAM 中。配置 來自控制器的資訊將輸入到 計算陣列，包括六個內核和寄存器 陣列。根據配置資訊，啟動 每個內核中處理元件（PE）的功能，以池方式 和大小，以及寄存器陣列中資料流程的方向。 將確定輸入資料重用。計算陣列是 負責卷積和池計算層 層。計算結果將存儲在 DRAM 中 通過輸出緩衝區。

正在翻譯中..

結果 (繁體中文) 3:[復制]

復制成功！

非同步的 按一下元素形成的筦道使電路能够在 由於非同步電路的自定時特性，流水線模式不犧牲速度。每次計算 core有一個5x5寄存器陣列，通過 非同步網狀網絡，通過它輸入的數據可以完全 重複使用。一種新的計算模式，稱為卷積和池集成計算，它結合了卷積和池 為了减少對 中間數據。這樣可以减少88%的存取權限 片外記憶體，大大降低了能耗。 CNN模型LeNet-5在我們的加速器中實現 Xilinx VC707的FPGA。非同步計算覈心占84% 比同步磁芯的動態功率小。這個 效率達到30.03gops/W，是原來的2.1倍 以前的作品。 CNN；節能；加速器；非同步 一、在t r o d u c t o n中 卷積神經網路（CNN）已經得到了廣泛的應用 在電腦視覺領域的應用 在影像分類、目標檢測和視頻方面的優勢 監視[1]。CNNs的推理通常是通過 CPU和GPU。但是，CPU的計算能力有限 資源和並行性。雖然GPU在 CNNs的推理，因為它是為並行設計的 計算大規模數據，但GPU消耗太多 功率（例如：NVIDIA GTX840M為33W，235W 對於NVIDIA Tesla K40[2,3]）。囙此，CNN加速器需要 靈活性和能源效率之間的權衡。就像我們 知道，ASIC設計可以獲得最佳的功率效率 只有特定的CNN模型才能在ASIC電路中實現 因為它最差的靈活性。現場可程式設計閘陣列顯示可接受 效能，但它的細粒度計算和路由 資源限制了電源效率和運行時的重新配寘 對於不同的CNN。獲得更好的靈活性和活力 效率，一些CNN加速器採用粗細微性 動態可重構體系結構（CGRA），如 麻省理工學院的Eyeris[4]和高性能的思考者[1] 以及靈活性。另一方面，非同步電路 以本地數據或控制驅動的 操作，它不同於 同步設計。這個字元使 非同步電路的一部分 個人理想的“頻率”-或者更確切地說，作為 需要，只在需要的時候和地方消耗能量。時鐘 選通有一個相似的目標，只有當 需要但不涉及 集中控制和時鐘樹緩衝區[5]。囙此， 非同步邏輯被認為是减少 在許多應用中的功耗[6,7]。IBM的 TrueNorth成功實現了尖峰神經元 網絡（SNN）只有65mW的功率[8]，資料流程 來自Wave Computing company的處理單元（DPU） 非同步處理單元達到181個。在這個 論文中，我們提出了一種動態的非同步加速器 可重新配寘的體系結構，以實現極大的靈活性，低成本 功率和高能效。 二。美國有線電視新聞網 A、加速器的結構 頂層架構如圖1所示，其中 輸入資料存儲在片外DRAM中。配寘 來自控制器的資訊將輸入到 包括六個覈心和寄存器的計算陣列 陣列。根據配寘資訊，啟動 每個覈心中處理元素（PE）的功能，池管道 和大小，以及寄存器數組中資料流程的方向 將確定輸入數據重用。計算數組是 負責卷積和池計算層 層。計算結果將存儲在DRAM中 通過輸出緩衝區。

正在翻譯中..

其它語言

本翻譯工具支援: 世界語, 中文, 丹麥文, 亞塞拜然文, 亞美尼亞文, 伊博文, 俄文, 保加利亞文, 信德文, 偵測語言, 優魯巴文, 克林貢語, 克羅埃西亞文, 冰島文, 加泰羅尼亞文, 加里西亞文, 匈牙利文, 南非柯薩文, 南非祖魯文, 卡納達文, 印尼巽他文, 印尼文, 印度古哈拉地文, 印度文, 吉爾吉斯文, 哈薩克文, 喬治亞文, 土庫曼文, 土耳其文, 塔吉克文, 塞爾維亞文, 夏威夷文, 奇切瓦文, 威爾斯文, 孟加拉文, 宿霧文, 寮文, 尼泊爾文, 巴斯克文, 布爾文, 希伯來文, 希臘文, 帕施圖文, 庫德文, 弗利然文, 德文, 意第緒文, 愛沙尼亞文, 愛爾蘭文, 拉丁文, 拉脫維亞文, 挪威文, 捷克文, 斯洛伐克文, 斯洛維尼亞文, 斯瓦希里文, 旁遮普文, 日文, 歐利亞文 (奧里雅文), 毛利文, 法文, 波士尼亞文, 波斯文, 波蘭文, 泰文, 泰盧固文, 泰米爾文, 海地克里奧文, 烏克蘭文, 烏爾都文, 烏茲別克文, 爪哇文, 瑞典文, 瑟索托文, 白俄羅斯文, 盧安達文, 盧森堡文, 科西嘉文, 立陶宛文, 索馬里文, 紹納文, 維吾爾文, 緬甸文, 繁體中文, 羅馬尼亞文, 義大利文, 芬蘭文, 苗文, 英文, 荷蘭文, 菲律賓文, 葡萄牙文, 蒙古文, 薩摩亞文, 蘇格蘭的蓋爾文, 西班牙文, 豪沙文, 越南文, 錫蘭文, 阿姆哈拉文, 阿拉伯文, 阿爾巴尼亞文, 韃靼文, 韓文, 馬來文, 馬其頓文, 馬拉加斯文, 馬拉地文, 馬拉雅拉姆文, 馬耳他文, 高棉文, 等語言的翻譯.