新聞中心

EEPW首頁 > 嵌入式系統 > 設計應用 > CPU主頻比FPGA快，但為啥FPGA才可以加速？

CPU主頻比FPGA快，但為啥FPGA才可以加速？

作者：時間：2018-03-27 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　CPU的主頻高達幾個GHz，FPGA的速率往往在幾百兆。但是，往往我們會說FPGA會給CPU進行加速。

本文引用地址：http://www.104case.com/article/201803/377455.htm

　　雖然CPU主頻很高，但其是通用處理器，做某個特定運算(如信號處理，圖像處理)可能需要很多個時鐘周期;而FPGA可以通過編程重組電路，直接生成專用電路，加上電路并行性，可能做這個特定運算只需要一個時鐘周期。

　　假設我們用FPGA完整的實現了CPU，然后再跑軟件的話，的確比CPU慢。問題是FPGA不會那么干，它會直指問題本質，解決問題。

　　即使我們用FPGA實現一個CPU，也是為了做一些芯片驗證或者說需要一些需要CPU和FPGA需要緊密結合的場景，這種場景現在也逐步由SoC的FPGA實現了。

　　舉個具體的例子，比如有兩個數組，其中有256個32位數，我們現在要把它們對應相加變成一個數組，用CPU寫最快大概是這樣子的：

　　r[0] = a[0] + b[0];

　　r[1] = a[1] + b[1];

　　...

　　r[255] = a[255] + b[255];

　　當然也可能會這么寫(在分支預測準確，指令緩存不大的情況下可能更快)：

　　for (int i = 0; i < 255; i++)

　　r[i] = a[i] + b[i];

　　CPU指令流水線

　　根據之前描述的基礎，指令進入流水線，通過流水線處理，從流水線出來的過程，對于我們程序員來說，是比較直觀的。

　　I486擁有五級流水線。分別是：取指(Fetch)，譯碼(D1, main decode)，轉址(D2, translate)，執行(EX, execute)，寫回(WB)。某個指令可以在流水線的任何一級。

　　流水線的數量不可能無限制增加，流水線的加速也有很多風險。即使流水線可以無限制增加，不管CPU的流水線又多少條，每個指令執行都必須順序執行。對速率的提升也是有限的。

　　對于上圖中的流水線有一個明顯的缺陷。對于下面的指令代碼，它們的功能是將兩個變量的內容進行交換。

　　第二條xor指令需要第一條xor指令計算的結果a，但是直到第一條指令執行完成才會寫回。所以流水線的其他指令就會在當前流水級等待直到第一條指令的執行和寫回階段完成。第二條指令會等待第一條指令完成才能進入流水線下一級，同樣第三條指令也要等待第二條指令完成。

　　這個現象被稱為流水線阻塞或者流水線氣泡。

　　對FPGA來說，也可以用上面相同的寫法，不同在于：

　　CPU是一個一個加法計算，而FPGA排好邏輯電路，在一個時鐘周期內計算完畢。就算CPU主頻比FPGA快100倍也趕不上啊。

　　計算機最基本的功能就是運算了，其中最基本的又要屬加法運算。我們知道計算機使用二進制來保存和處理數據，因此這里的加減法運算都是用二進制進行。下面雅樂網總結了一些運算器中加法器的設計。

　　二進制加法

　　一位的二進制加法非常簡單，因為只有四種情況

　　0+0=0 進位0

　　0+1=1 進位0

　　1+0=1 進位0

　　1+1=0 進位1

　　多位的二進制加法和十進制類似，每一位上兩個數相加后再加上進位就可以了

　　FPGA半加器

　　半加器可以實現兩個1位的二進制數字相加，并且輸出結果和進位。

　　真值表：

　　一位半加器真值表

　　由表中可以看見，這種加法沒有考慮低位來的進位，所以稱為半加。

　　輸出和：A和B一個為0 一個為1的時候輸出1 兩個0或兩個1輸出0 因此可以用異或門連接。

　　進位：只有AB均為1的時候進位輸出1 進位Cout = AB 用與門連接。

　　一位半加器

　　FPGA全加器

　　全加器在半加器的基礎上增加了進位它輸入三個數字兩個加數和一個進位 Cin，輸出結果和進位

　　一位全加器真值表

　　從真值表很容易寫出如下邏輯表達式

　　S=P異或Cout 其中P=A異或B

　　Cout=P·Cin+G 其中G=A·B

　　一位全加器

　　四位行波加法器

　　將四個全加器每一個的僅為輸出連接到下一個的進位輸入就可以構成一個4位串行加法器了

　　四位行波加法器

　　這樣構成的加法器連接起來很簡單，但是也有不足：每一個全加器計算的時候必須等待它的進位輸入產生后才能計算，所以四個全加器并不是同時進行計算的，而是一個一個的串行計算。這樣會造成較大的延遲。

　　超前進位加法器(Carry-Lookahead Adder，CLA)

　　超前進位加法器的思路是提前算出每一位上的進位。

　　分析每一個全加器的局部

　　一個全加器 A B Cn 如果有兩個或兩個以上的1 那么進位Cn+1就是1

　　因此 Cn+1 = AB + ACn + BCn = AB + Cn(A+B)

　　記生成(Generate)信號：Gi=Ai·Bi

　　傳播(Propagate)信號：Pi=Ai+Bi

　　那么Ci+1=Gi+Pi·Ci

　　根據這個遞推關系，可以推導出每一位的進位

　　每一位的進位跟前一級進位有關，前一級又跟前一級的前一級有關一直向前最終是和C0相關。而最開始的第一位C0和A0 B0都是已知的

　　這樣算出結果只需要經過三個門延遲就可以了。

　　隨著位數的增加，進位的計算公式會越來越復雜。32位的進位計算需要32與門

　　所以我們需要更多的計算位寬或者更大的數組，或者矩陣的運算的時候，我們使用FPGA的優勢就體現出來。再多的計算，也就是放置更多的邏輯資源。

　　FPGA的并行是真并行，CPU完全沒得比。CPU如果想并行最多也就是讓多個核并行，但是對于大部分算法實現來說，如上例，多個核之間的同步調度開銷遠遠大于計算開銷，就算多個核之間的調用開銷可以做的很小，一般CPU也就那幾個核，而FPGA只要門足夠，想并行幾路就可以并行幾路。

　　所以在做可并行的計算密集型任務時，比如信號處理，網絡傳輸等等FPGA可以幫上忙;但是如果做我們常見的串行為主的任務而言，FPGA的確遠遠比不上CPU。

　　FPGA是配角

　　使用FPGA不一定總能加速，只是在某些強計算和數據處理的方面，因為其硬件電路并行運行和有很多DSP硬核資源供調用的特點，可以工作得更出色。FPGA本身也只是輔助角色，起控制的還是CPU本身，所以FPGA并不能代替CPU，只是在完成一件大任務的過程中將某部分任務分解給FPGA可以更好地一起完成任務。在這過程中也會有額外的開銷產生，在某些場合，可能用了FPGA而效果更差也是有的。

　　另外，通常說的使用FPGA加速比CPU和GPU省電，是指在完成同樣的任務下，FPGA耗費的電力比起CPU和GPU更少一些，相對而言的，并不是說FPGA本身就一定省電。

　　FPGA的弱點

　　1.開發周期長。需要對特定的應用編寫特定的FPGA。只要干的事情稍有不同，一般來說FPGA代碼就要重新寫一遍或者是至少要修改很多東西。開發代價和碼農碼幾行代碼完全不可比。而且一般需要若干工程師花費若干周才能搞的定。重點是會寫的人還不多。

　　2.并不是所有東西都適合FPGA。FPGA適合于做那些可并行計算的東西，例如矩陣運算。如果是一些判斷類的問題，FPGA算得并沒有CPU快(這個時候時鐘周期才是關鍵因素)。所以現實中都是有人來分析，在整個任務中有哪些地方可以并行計算，把這些地方替換為FPGA卡。

　　由于現在機器學習、大數據比較火，里面矩陣運算成千上萬，所以沒有出現定制的ASIC之前，FPGA加速還是業界主流。現在百度、微軟、谷歌等公司都已經把FPGA加速運用到了實際的商業運營中。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>