新聞中心

        EEPW首頁 > EDA/PCB > 設計應用 > Xilinx 16nm UltraScale+實現2至5倍的性能功耗比優勢

        Xilinx 16nm UltraScale+實現2至5倍的性能功耗比優勢

        作者: 時間:2016-10-16 來源:網絡 收藏

        臺積公司的16nm 最新UltraRAM和SmartConnect技術相結合,使能夠繼續為市場提供超越摩爾定律的價值優勢。

        本文引用地址:http://www.104case.com/article/201610/308338.htm

        憑借其28nm 7系列全可編程系列以及率先上市的20nm UltraScale™系列,獲得了領先競爭對手整整一代優勢,在此基礎上,賽靈思剛剛又推出了其16nm UltraScale+™系列器件。客戶采用該器件系列構建的系統相比采用賽靈思28nm器件所設計的類似系統的性能功耗比可提升2至5倍。這些性能功耗比優勢主要取決于三大方面:采用臺積電公司16FF+(即16nm FinFET Plus)工藝的器件實現方案、賽靈思的片上UltraRAM存儲器以及SmartConnect創新型系統級互聯-優化技術。

        此外,賽靈思還推出了其第二代Zynq®全可編程SoC。Zynq UltraScale多處理SoC (MPSoC) 在單個器件中完美集成了四核64位ARM® Cortex™-A53應用處理器、32位ARM Cortex-R5實時處理器、ARM Mali-400MP圖形處理器、16nm FPGA邏輯(帶UltraRAM)、眾多外設、安全性與可靠性特性、以及創新型電源控制技術。該新型Zynq UltraScale+ MPSoC為用戶提供了系統創建所需的一切,而且利用其打造出來的系統相比采用28nm Zynq SoC所設計的系統的性能功耗比提升5倍。

        FINFET進一步擴展 系列,使其具有額外的節點價值優勢

        賽靈思公司芯片產品管理與營銷高級總監Dave Myron指出:“采用16nm UltraScale+系列,我們能夠創建出比摩爾定律通常提供給用戶的更高的額外節點價值優勢。我們能滿足LTE Advanced與早期 5G無線、Tb級有線通信、汽車高級駕駛員輔助系統以及工業物聯網應用等各種下一代應用需求。UltraScale+系列使用戶能夠實現更大的創新,同時在各自的市場中保持領先競爭對手。”

        憑借其UltraScale系列產品,賽靈思能夠同時通過兩個工藝節點提供器件,即臺積公司的20nm平面工藝(已經發貨)和現在臺積公司的16FF+工藝(賽靈思預計將于2015年第四季度開始發貨)。賽靈思將推出16nm UltraScale+系列的Virtex® FPGA與3D IC、Kintex® FPGA以及新型Zynq UltraScale+ MPSoC。

        賽靈思公司新產品推出與解決方案市場營銷總監Mark Moran表示,賽靈思決定于2013年開始推出其20nm UltraScale系列,而不是等臺積公司的16FF+工藝問世后才發布。這是因為在一些應用領域,早在一年半就迫切需要20nm器件——其比28nm具有更高的性能和容量。

        Moran表示:“我們的整個產品系列在設計時充分考慮到市場需求。采用20nm UltraScale架構的器件的功能更適用于那些無需UltraScale+提供的額外性能功耗比優勢的市場和最終應用中的新一代產品。既然知道16nm緊跟其后,所以我先構建了20nm FinFET。同時我們在20nm上進了大量的架構修改(我們知道這是16nm的基礎),可以根據市場需要提高性能和價值水平。我們有客戶已經著手在我們目前提供的20nm器件上進行開發,這樣只要16nm Ultra-Scale+器件一問世,他們就可以快速進行設計移植,進而加速設計上市進程。”

        Myron補充說,眾多Virtex UltraScale+器件會與20nm Virtex Ultra-Scale器件實現引腳兼容,這樣,對需要額外性能功耗比優勢的設計來說易于升級。

        Myron說:“從工具角度來說,20nm UltraScale和16nm UltraScale+器件看起來幾乎一樣。因此使用16nm UltraScale+器件還有一大優勢,那就是提升性能功耗比使其很容易達到性能和功耗目標要求。”

        Myron說UltraScale+ FPGA以及3D IC相比28nm 7 系列FPGA,性能功耗比提升2倍。同時,Zynq UltraScale+ MPSoC憑借其額外的集成異構處理功能,相比采用28nm Zynq SoC構建的類似系統,性能功耗比提升5倍(如圖1所示)。

        圖1 – 賽靈思16nm UltraScale+ FPGA和Zynq UltraScale+ MPSoC可為設計團隊提供額外的節點價值優勢。

        源于臺積公司16FF+工藝的性能功耗比優勢

        僅通過向16nm FinFET的工藝移植,賽靈思已推出了比28nm 7 系列器件的性能功耗比高出2倍的器件。Myron指出:“臺積公司的16FF+是一種極其高效的工藝技術,這是因為其基本消除了此前采用平面晶體管實現的芯片工藝相關的晶體管電源泄漏情況。此外,我們還與臺積公司通力合作,共同優化UltraScale+器件,以充分利用該新工藝技術。至少(僅從該新工藝技術的創新角度來說),UltraScale+設計相比采用28nm 7系列器件實現的設計,性能功耗比提升兩倍以上。

        如需了解有關賽靈思20nm UltraScale架構,以及FinFET相比平面晶體管工藝的優勢的詳細說明,敬請訪問:《賽靈思中國通訊第84期》。

        在UltraScale+系列中,賽靈思還將提供業界首款3D-on-3D器件——其采用臺積公司16FF+ 3D晶體管技術實現的第三代堆疊硅片互聯3D IC。

        Myron指出,屢獲殊榮的7系列3D IC通過在單個集成芯片上提供多個芯片,突破了摩爾定律的性能和容量極限。

        Myron指出:“憑借我們的同質3D IC,我們能夠突破摩爾定律的容量極限,從而可提供容量是28nm最大型單芯片FPGA容量2倍的器件。然后利用我們的首款異構器件,我們能夠將FPGA芯片與高速收發器芯片組合在一起,提供28nm單芯片器件無法實現的高系統性能與帶寬。利用UltraScale+ 3D IC,我們將繼續提供超越摩爾定律極限的高容量與性能。”

        源于ULTRARAM的性能功耗比優勢

        Myron說通過采用最新大型片上存儲器UltraRAM,眾多UltraScale+設計相對28nm將獲得更多的性能功耗比提升。賽靈思將在大部分UltraScale+器件中新增UltraRAM。

        Myron指出:“從根本上來說,片上存儲器(如LUT RAM 或分布式RAM和Block RAM)和片外存儲器(DDR或片外SRAM等)之間的差距越來越大。有很多處理器密集型應用需要不同類型存儲器。尤其是當您設計更大型更復雜的設計時,就更需要較快速的片上存儲器。Block RAM太細太少。而如果您將存儲器放在片外,不僅會增加功耗,讓I/O變得復雜,而且還會增加材料清單(BOM)成本。

        這就是賽靈思開發UltraRAM的原因。Myron 指出:“我們所做的就是增加片上存儲器分層結構的層數,以及能夠在設計中輕松實現大型存儲器模塊。我們不僅幫助設計人員輕松放置恰當尺寸的片上存儲器,而且時序也有保障。”

        通過LUT或分布式RAM,設計人員可以添加1b和kb級大小的RAM,而BRAM可讓他們添加10Mb大小的存儲器模塊。UltraRAM允許采用UltraScale+器件的設計人員用100Mb級的存儲器塊實現片上SRAM(如圖2所示)。這樣做,設計人員只需較少量的片外RAM (SRAM、RLDRAM和TCAM)就能夠打造出性能/能效更高的系統。同時還會降低材料清單(BOM)成本。最大型的UltraScale+ 器件VU13P具有432 Mb的UltraRAM。

        圖2 – UltraRAM可填補片上存儲器和片外存儲器之間的存儲器空白,從而使設計人員能夠利用較大型的本地存儲器模塊創建性能更高、功耗更低的系統。

        源于SmartConnect的性能功耗比優勢

        另一項新技術SmartConnect,可進一步提升UltraScale+設計的性能功耗比優勢。

        Myron說:“SmartConnect是工具和硬件協同優化的結晶,也是一種智能方法,即便設計越來越復雜,也可輕松實現。”

        傳統上,當工程師在設計中填充的IP模塊越多,開銷(功耗和占用面積需求)就越大。Myron說借助SmartConnect,賽靈思已向Vivado®設計套件增加了一些優化功能,從而可以從系統級層面考慮整個設計。SmartConnect具有最有效的互聯拓撲結構,可實現最小的占位面積和最高的性能,從而充分發揮AXI互聯的一些最新增強功能以及16nm UltraScale+芯片的優勢。

        Myron指出:“16nm UltraScale+器件在這個更高的協議層而不僅僅是在路由層上具有更高的效率。這意味著在16nm FinFET優勢的基礎上進一步提高性能功耗比優勢。”

        圖3展示了一個真實的設計,其含有8個視頻處理引擎,所有這些引擎均與處理器和儲存器相連。Myron說:也許奇怪,像這樣的一個真實世界的設計,互連邏輯竟然差不多占用了設計總面積的一半。這不僅影響功耗,而且還會限制頻率。而SmartConnect可以自動重組互連模塊并在不影響性能的情況下將功耗降低20%。

        16nm FPGA標準測試

        舉例說明FPGA設計方案的性能功耗比優勢,在28nm Virtex-7 FPGA中實現的48端口無線CPRI壓縮與基帶硬件加速器的功耗為56W(如圖4)。在同一性能水平下運行的同一設計實現在16nmVirtex UltraScale+ FPGA中,功耗僅為27W,相比28nm設計功耗降低了55%,性能功耗比提升了2.1倍。加上UltraRAM和SmartConnect提供的額外性能功耗比優勢,實現在VirtexUltraScale+中的設計相比28 nm Virtex-7 FPGA實現方案,性能功耗比提升了2.7倍,功耗降低了63%。

        同樣,在FPGA功耗預算為15W的圖像處理PCI模塊中,28 nmVirtex-7可實現每秒525次操作的性能。相比之下,實現在16 nm UltraScale中的同一設計則可實現每秒1255次操作的高性能,性能功耗比提升了2.4倍。加上UltraRAM和SmartConnect提供的額外性能功耗比優勢,Virtex UltraScale +實現方案相比28 nm Virtex-7 FPGA實現方案,性能功耗飆升3.6倍。

        圖3 – SmartConnect技術將互聯所占用的面積削減達20%,這樣在相同性能水平下,功耗可降低20%。

        圖4 – 16nm UltraScale+可為那些設法在相同功耗預算范圍內更快速實現設計以及試圖在相同性能水平下大幅降低功耗的設計人員保持其顯著的性能功耗比優勢

        ZYNQ MPSOC可提供超過5倍的性能功耗比優勢

        盡管賽靈思原本可以采用臺積公司20 nm工藝實現其第二代全可編程SoC,但公司仍會選擇等待采用臺積公司的16 nm 來實現該器件。該器件的異構多處理特性集結合16nm UltraScale架構的性能功耗比優勢,可以將16nm Zynq UltraScale+ MPSoC打造成更高效的中央處理系統控制器。該器件可提供超過28 nm Zynq SoC 5倍的性能。

        去年,賽靈思針對UltraScale MPSoC架構推出了其“為合適任務提供合適引擎”的使用模型,但保留了有關Zynq UltraScale+MPSoC器件應有的特定內核的細節。目前公司正發布全特性集Zynq UltraScale+ MPSoC(如圖5所示)。

        圖5 – 16nm Zynq UltraScale+ MPSoC采用了一組豐富的處理引擎,設計團隊能夠為各項任務量身定制處理引擎,從而實現無與倫比的系統性能,進而顯著提升其系統價值。

        當然,初始28nm Zynq SoC的最大增值是在單個器件中完美集成了ARM處理系統和可編程邏輯。 Zynq SoC的處理系統(PS)和可編程邏輯(PL)模塊通過超過3000多個互聯(峰值帶寬運行速率約為84 Gbps)連接在一起。PS和PL之間的緊密相連所提供的吞吐量和性能不是一個包含FPGA和獨立ASSP的雙芯片系統架構能簡簡單單實現的。

        目前借助16nm UltraScale+ MPSoC,賽靈思顯著提高了處理系統和可編程邏輯之間的性能,為器件提供了超過6,000次互聯(峰值帶寬運行速率為500Gbps)。賽靈思公司全可編程SoC產品市場營銷與管理總監Barrie Mullins指出:“這使得Zynq UltraScale+ MPSoC處理系統與邏輯系統之間的連接速率比采用28nm Zynq SoC可能實現的連接速率快6倍。而且雙芯片(ASSP +FPGA)架構的系統性能遠遠落后于此。”

        Mullins說Zynq UltraScale+ MPSoC的核心是64位四核ARM Cortex-A53處理器,其可提供2倍于28nmZynq SoC的雙核Cortex-A9處理系統的性能。應用處理系統具有硬件虛擬化和非對稱處理功能,可全面支持ARM的TrustZone®套件的安全特性。

        賽靈思還為Zynq UltraScale+MPSoC提供了一個雙核ARM Cortex-R5實時處理子系統,可幫助用戶向其系統添加確定性操作。實時處理器可確保為需要最高級別吞吐量、安全性和可靠性的應用提供即時系統響應。

        為進一步提升處理性能,Zynq UltraScale+ MPSoC還內置了一系列的專用圖形引擎。ARM Mali™-400MP專用圖形加速內核可幫助主CPU分擔圖形密集型任務。為協助GPU,賽靈思向用于視頻壓縮/解壓縮(支持8Kx4K (15fps)和4Kx2K (60fps)的H.265視頻標準)的可編程邏輯塊添加了一個硬化的視頻編解碼器內核。DisplayPort源內核可幫助用戶加速視頻數據分組,同時還避免其系統使用外部DisplayPort TX發送器芯片。

        Zynq UltraScale+ MPSoC還具有一系列片上存儲器增強功能。該產品系列中的最大型器件,其可編程邏輯中除Block RAM外,還包含UltraRAM。同時Zynq UltraScale+ MPSoC的處理內核共享L1和L2高速緩存。

        Zynq UltraScale+ MPSoC還采用具備ECC功能的位數更寬的72位DDR接口內核(64位+ECC的8位)。該接口能提供用于DDR4的2,400Mbps速率,可支持32GB容量的更大內存深度DRAM。

        Zynq UltraScale+ MPSoC上的專用安全單元可提供軍事級安全性,諸如安全啟動、密鑰與庫管理,以及防纂改功能等——這些都是設備間通信以及互聯控制應用的標準需求。此外,Zynq UltraScale+MPSoC的可編程邏輯系統還采用了針對150G Interlaken、100GEthernet MAC和PCIe® Gen4的集成連接功能塊。板載模擬混合信號(AMS) 內核有助于設計團隊利用系統監控器(System Monitor)測試其系統。

        借助所有這些功能,不是任何應用都會用到MPSoC中的每個引擎。因此,賽靈思為Zynq UltraScale+MPSoC提供了一個極其靈活的專用電源管理單元(PMU)。該內核使用戶能夠控制電源域和分區(粗/細精度),僅為系統正使用的處理單元供電。而且,設計團隊能夠對該內核進行編程,以實現動態操作,從而確保系統僅運行執行給定任務所需的功能,進而降低功耗。PMU還可實現眾多安全性和可靠性,比如信號和誤差的檢測與緩解、安全狀態模式,以及系統隔離與保護。

        Myron表示,歸功于上述探討的16nm新增的所有這些處理功能,采用Zynq Ultra-Scale+ MPSoC構建的設計相比采用28nm Zynq SoC實現的設計,性能功耗比優勢平均提升5倍。

        16nm ZYNQ ULTRASCALEMPSOC測試標準

        為了說明Zynq UltraScale+ MPSoC的性能功耗比優勢,讓我們來看一下該器件服務的眾多應用中的3個應用的標準測試結果,不同顏色用于演示處理引擎的多樣性(如圖6所示)。

        圖6 – Zynq UltraScale+ MPSoC擁有豐富的處理模塊、外設集和16nm邏輯塊,可幫助設計團隊創建出比采用28nm Zynq SoC實現的設計高出5倍性能功耗比優勢的創新型系統。

        為創建一個運行全1080p視頻的視頻會議系統,設計人員采用一個帶有獨立H.264 ASSP的Zynq SoC。利用Zynq UltraScale+ MPSoC的優勢,設計人員現在能夠在單個Zynq UltraScale+ MPSoC中實現4Kx2K UHD系統,而且在相同功耗預算條件下,該系統相比雙芯片系統而言,性能功耗比提高了5倍。

        賽靈思公司高級SoC產品線經理Sumit Shah表示:“在需求使用Zynq SoC和兩個ASSP的公共安全無線電應用中,現在您只需使用一個Zynq UltraScale+ MPSoC就可實現整個設計,而且相對此前的配置,系統功耗降低了47%,性能提升了2.5倍,從而實現了4.8倍的性能功耗比優勢。”

        Shah說,同樣的,此前實現在兩個28nm Zynq SoC上的汽車多攝像頭駕駛員輔助系統,現在可以縮小到一個Zynq UltraScale+ MPSoC上。單芯片系統比雙芯片設計的性能提升2.5倍,功耗降低50%。相對此前實現方案而言,這可將性能功耗比凈提升5倍。

        針對所有UltraScale Plus產品系列的早期客戶參與計劃正在如火如荼進行。首個流片和設計工具的早期試用版本預計將于2015年第二季度推出。公司有望在2015年第四季度開始向客戶出貨UltraScale+器件。



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 三河市| 金门县| 司法| 泰和县| 雅安市| 昭觉县| 延吉市| 丹阳市| 盐边县| 博野县| 黔江区| 红河县| 容城县| 苍山县| 兖州市| 宜黄县| 诏安县| 青川县| 濮阳市| 萍乡市| 突泉县| 游戏| 岗巴县| 衡南县| 永和县| 柯坪县| 望城县| 陈巴尔虎旗| 长寿区| 化德县| 株洲县| 柞水县| 舒城县| 瑞丽市| 东丽区| 望江县| 汉寿县| 普安县| 山丹县| 商南县| 正宁县|