以系統為中心的全層次納米級SoC設計方法學
引言
2003年SoC的收入達到了310億美元,隨著通信行業及個人電子設備市場的快速發展,這一數字有望在2008年再翻上一番。其主要應用領域包括:數字蜂窩式移動電話及基礎設施、存儲設備、視頻游戲機、消費類顯示設備、圖形卡、數字電視、個人電腦用主板、寬帶接入設備以及DVD等。
個人電子設備需求的持續上升表示SoC設計正發展到一個轉折點,因為此類系統的產品壽命一般都不會超過一年,而新產品的問世周期為兩年。
研究表明,一項高科技新產品只要延遲上市6個月,其生命周期內的收入就要減少大概30%。而且,近年來這種商業影響有愈演愈烈之勢,有份報告指出,大容量存儲設備推遲三個月上市至少造成了5億美元的損失。
但是,在過去四年,芯片的一次、二次和三次設計的成功率正在逐步下降,目前,能夠實現一次成功的芯片設計還不到總量的39%。雖然功能設計和邏輯設計的錯誤是導致設計重制的最大影響因素,但電子、物理及光學作用也正對芯片設計起著越來越重要的影響。
本文詳盡地描述了三代SoC開發過程中所得到的工程設計結論,舉例說明了這些設計方法在設計需求驅動下的持續進步,同時還提出了與最新開發的設計技術同時獲得的新結論。
以系統為中心的
全層次設計方法學
基于模塊的全層次設計方法學通過同步實現多個VLSI規模的模塊設計和頂層設計達到了加快設計進度的目的。
在業內首創的單芯片全雙工OC48流量管理器及ATM分裝重組(OC48 TM/ATM SAR)SoC的開發期間,從網表到流片的全層次設計方法擴展到整個架構開發以及RTL設計和驗證的過程之中(見圖1a和1b)。
該方法論延伸了結構/RTL級設計以及電子/物理設計之間的并行性(交錯推進),也使得模塊設計與頂層設計能夠協同進行。該方法包括兩個關鍵的部分:第一,利用定制的FPGA平臺來驗證RTL設計并開發出“黃金RTL”(GRTL),該平臺提供的有效驗證吞吐量比起單仿真方法要高出70萬倍;第二,GRTL的設計層次在開發過程中保留了下來,架構中同樣的模塊邊界、接口以及同樣的GRTL和FPGA分塊級擴大了同步設計的范圍,進而使硅片設計的時間縮短了一半。
該芯片在8層金屬、0.15mm、1.2V的CMOS工藝中集成了大概7800萬個(SRAM約占6600萬個)晶體管。SPI4.2接口以450MHz DDR運行,有效吞吐量可達900Mb/s。該芯片功率為6W,采用定制設計的1803 FCBGA封裝。電路的性能和系統驗證電路板如圖2a和圖2b所示。
第一款節約成本的、可升級的、160Gb/s的單芯片交換核心(SF:Switch-Fabric)處理器使用了320Gb/s共享存儲架構,使效率提高了8倍,并在8層金屬、130nm的工藝中集成了3000萬個晶體管,64個SerDes端口以及4個3.125GHz的鎖相環。
在這個業內首個SoC芯片的開發過程中,同時開發出了基于電路并確保無沖突翻轉的三態總線構架,可以把整個頂層布線信號的數量減少3/4如每個三態總線的節點數從5400減少到了1400,使該設計能夠在現有的8層金屬中實現。
類似于一個圓的獨特雙軸對稱布局規劃(見圖3)使整個電路的連線總長度最短并使頂層設計的布線堵塞最小化,從而優化頂層布線網絡(見圖4a),同時該元件的電氣功能正確,最大溫度梯度為25攝氏度(見圖4b)。
本集成電路是一個單芯片中的完整交換板,具有160Gb/s的吞吐量和不高于15W的功耗,并支持10Gb/s到80Gb/s的線路卡。本集成電路使可線性升級的系統的直接設計(straightforward design)具有160Gb/s到1.28Tb/s的吞吐量。圖5a和圖5b為測量得出的眼圖。
該設計方法在數千兆位(Multi-Gigabit)交換網絡系統的130nm芯片(Gb/s SNS IC)的設計與開發過程中得到了進一步改善,同時也開發出新的設計技術,使設計進度加快了28%,電壓降(IR drop)減少到20mV以內,時鐘扭曲(clock skew)也小于90ps,在超過220萬節點的網表中,只需要對其中少于0.1%的的節點進行布線后優化,同時滿足了新的片上變化(OCV)、可制造性設計(DFM: design-for-manufacture)和良率設計(DFY: design-for-yield)的要求(見圖6a和6b)。
因此,此芯片首次投片就滿足了功能設計和電子設計的需求,并在8層金屬的130nm低壓(LV) CMOS工藝中實現,同時集成了大概7600萬個晶體管和高達625MHz DDR的時鐘,封裝形式為1932 FCBGA封裝。
電子/物理設計優化方法
SoC設計中需要考慮的內容包括軟/硬件協同設計以及結構/RTL級設計和驗證。電子/物理設計需要考慮的內容包括:電源分布,時鐘架構和電學特性收斂(electrical convergence),后者還包括時序、片上以及輸入/輸出信號完整性,OCV、DFM和DFY所涉及的部分也要考慮在內。
頂層模塊級物理規劃的優化
硅虛擬原型使模塊間和模塊內的可布線性需求可視化,對優化布局規劃起到了直接的作用。此外,基于物理信息的邏輯網表重新綜合使得以連線為中心的設計自動化過程進一步得到優化。在OC48 TM/ATM SAR SoC的開發過程中,邏輯綜合的優化使電路時序得到了明顯改善:布局前時序正確的網表在布線后有1182條沖突路徑,最差負間隙(negatire slack)為-2ns;而經過邏輯綜合優化的網表在布線后只有250條沖突路徑,最差負間隙為-0.3ns。
在Gb/s SNS IC的開發過程中, 8個VLSI規模的不同模塊連同頂層模塊中超過210萬個元件被并行設計,包括置入大約500個帶有預先設置時序約束的SRAM塊,用于預測時序收斂。該方法能夠使布局開發和驗證、層次化設計以及網表優化在1天內進行3~5次迭代。
接下來對設計模塊進行分組和尺寸調整,可以在1天內完成1次完整的設計迭代——從網表到布局后的靜態時序分析(STA)再到工程更改單(ECO)的生成。
芯片設計從最終的功能網表到流片能夠在大約8周之內完成,與以前的方法相比,該方法能夠使進度加快28%。
基于圖形的布線技術
新一代基于圖形的布線技術已經用于優化最終布線,與自動布線技術的結合能夠在信號完整性、可制造性、可布線性以及時序之間進行協同平衡。源自設計試探搜索方法和設計收斂規則的布線規則可用于優化層選擇、層排序、平行走線長度縮短、節點屏蔽以及整個布線拓撲。
在Gb/s SNS IC的開發階段,基于精確的物理連線信息和內置的時序同信號完整性分析引擎,能夠同時進行詳細布線及連線優化,可使布線后還需要優化的節點數減少到1/10:按照傳統布線技術開發的具有約210萬個節點的集成電路中一般有不到1%的節點需要布線后優化;而該電路有著220多萬個節點,在布線后卻只有不到0.1%的節點需要優化。
時鐘分布
此類設計一般包含25~40萬個觸發器,在10~100個物理域中工作,其片上頻率為125~626MHz DDR。
時鐘樹綜合可以用于提供對由OCV引起的時鐘偏斜的不足控制以及對插入延遲的管理,因此,頂層模塊級時鐘分布網絡拓撲一般能基于每一主模塊中的觸發器,為該模塊定制開發。此類網表一般都不受網表修訂的影響,因而加快了設計進度。此外,功率管理、模塊級插入延遲、壓擺率(slew rate)及相關的時鐘偏斜要求能夠獨立于頂層規劃進行優化。
在OC48 TM/ATM SAR SoC中,一個專為優化觸發器分布、具有低電阻金屬RC延遲的全定制拓撲支持低于1%的占空比變化,并為源同步接口提供小于15ps的時鐘偏斜。
在160Gb/s SF SoC中,平衡的時鐘拓撲提供了小于60ps的模塊內時鐘偏斜和小于150ps的頂層最壞情況下的時鐘偏斜。頂層帶有緩沖鏈的手工布線可以實現匹配所有域的精確插入延遲。
在Gb/s SNS 集成電路中,最壞情況下頂層模塊間的時鐘偏斜小于30ps,模塊內的時鐘偏斜小于90ps。
時序及電子設計
能夠反映出邊界輸入/輸出負載及驅動特性的精確“黑盒子”模型對于芯片時序和信號完整性驗證至關重要。基于非線性的電流源模型和全分布式耦合RC布線模型的數字延遲計算器可用于計算全芯片路徑延遲、實現時序驗證并預先考慮信號完整性問題。
數字的、非線性高效電流源模型(ECSM)用于表征瞬時驅動充/放電流,專為各電路中的每一個輸入到輸出時序通路而創建,應用于特定節點的RC連線模型中,以計算驅動點和受驅動點雙方的信號壓擺率和連線延遲(見圖7a和7b)。
該技術通過生成和分級傳播ECSM模塊級模型到頂層來實現全層次時序設計。因此,在計算頂層延遲時能夠基于實際的模塊前邊界條件把設計層次也考慮進去。
延遲計算精確性的提高對設計進度的加快有著直接的影響:在一個包含26萬可放置對象和18.7萬個節點的小型模塊的設計中,相對于全電路仿真,延遲計算的不確定性能夠從10%縮減到5%,從而使干擾時序的節點數從2807減少到1512。由于節點數量的減少而消除的不確定通路也就不再需要投入額外的工程設計工作了。
電源分布
M6到M8上符合物理規則的拓撲一般都用于此類集成電路中的電源分布(主要因為這些金屬層有著大概低于50%的電阻系數)。
在Gb/s SNS 集成電路中,RDL層中接近60%的布線資源以及M6、M7和M8各層中大概15%的布線資源都用于電源分布。最壞條件下的VDD和VSS IR 壓降總共加起來不超過20mV,其中芯片核心部分的VDD為1V,功耗為18W。
電源網絡中的IR壓降以及電遷移一致性通過對芯片中的電流建模來完成驗證,該模型以能精確反映出實際片上電源分布網絡情況的阻抗網孔為基礎,此類網孔一般都包含3000萬到3億個電阻來保證對電流的精確建模。
功率管理
該設計方法論經過擴展,能在自動布局布線模塊中支持多個電壓域(包括電壓接口單元的管理)及多個開啟電壓電路,可以降低動態功耗和漏電流。在一個包含大概28萬個元件(以及額外的SRAM塊)、工作頻率為300MHz的設計時鐘的開發過程中,分析結果表明,該方法可降低42%的功耗(其中輸入/輸出單元功耗的降低約占50%)(見圖8a和8b)。
輸入/輸出和封裝設計
SoC電路一般都有超過200~1000個可同步切換的輸入/輸出端。通過優化輸入/輸出電路、總線輸入/輸出、時鐘/控制器輸入/輸出、VDD/VSS 引腳分配、封裝設計以及封裝基板設計可以解決輸入/輸出并發開關噪聲效應問題。
對于160Gb/s SF SoC而言,建有14層布線的896腳FCBGA封裝可以支持10種不同的VDD 電源布線,向芯片提供約12A的電流。該系統帶有1個散熱片以及1m/s的空氣流,可支持20W的功耗。封裝的基板設計考慮了每一個256 Tx/Rx信號(都在3.125Gb/s下運行)的位置,使串擾、布線長度以及阻抗匹配變化最小,同時避免了電遷移問題。
X架構
X 架構的主要特征是在中間和頂部金屬層全面使用45度布線,能降低芯片內部20%的互連或布線資源。有代表性的X 架構布線如圖9a和圖9b所示。
采用X結構的RISC處理器核心的設計使芯片關鍵路徑的延遲縮短了19.8%,芯片面積減小了10%,4個主要模塊的連線總長度也分別減少了13%~25%不等,同時通孔數量也相應有28%~37%的減少。這些結果對芯片的性能、功耗、面積以及成本都有著重要影響(見圖10a)。
圖10b為傳統架構同X架構設計的靜態時序分析(STA)比較柱狀圖,使用X架構可將最壞情況下通路延遲間隙(slack)從-50ps增加到+940ps。
利用X架構的首款商用產品已經實現,該芯片應用于數字電視領域,采用130nm CMOS工藝,集成了270萬門電路,工作頻率為180MHz。在該設計中,M4和M5為45度布線,借助X架構,使用了層次化設計方法論完成設計,與利用傳統技術實現的芯片相比,速度提高了11%,而面積減少了10%(見圖11a和11b)。
技術就備
技術就備(Technology Ready)能夠在新技術的預測性能與實際性能之間建立起清楚的相關性,有利于實現芯片一次設計成功,并在量產初期得到高的良品率。通過分析實際測試芯片的性能與預測性能之間的差異可促使設計師們采取措施來改進性能。
第一款采用90nm CMOS工藝、含30萬門的測試芯片已經制造出來了(見圖12)。該設計在5層金屬上實現,M3/M4為45度布線,與采用傳統技術的設計相比,總連線長度縮短了14%,通孔數也減少了27%。
該方法可用于驗證65nm工藝中層和頂層連線中45度布線的可制造性。此類中層連線的線間距(wiring pitch)將在2007年定義為195nm,在2010年減少到135nm,與此同時,頂層連線的線間距將分別定義為290nm和205nm。
目前,連線線寬/線間距分別為113/113nm和113/226nm的測試芯片都已制造出來。在前一測試環境中,測量均值是117nm,3d極限為+/-7nm,即線寬(Critical Dimension)的6.2%;在后一測試環境中,平均值為115nm,3d極限為+/-10nm,即線寬的8.8%。
在該芯片中,同時采用了傳統構架和X構架,采用同樣的光學近似修正(OPC)、金屬填充(metal fill)、光罩流(mask flow)以及光刻技術,并無需任何特殊的步驟,圖形在轉彎處以及Z型處有很高的保真度(見圖13a和13b)。
結語
本文向讀者展示了針對SoC開發的電子/物理設計方法的主要特征,該方法始終都在為實現業內主流SoC的一次設計成功貢獻力量,也為及時實現SoC的商業目標同技術目標而推波助瀾。■
參考文獻
1 Gartner- Worldwide ASIC/ASSP, FPGA/PLD and SLI/SOC App. Forecast, 1Q04
2 Gartner- ASIC and FPGA Suppliers Answer the Call, Jan. 2004
3 A.Khan, "Recent Developments in High-Performance System-on-Chip IC Design," In Proc. IEEE ICICDT, May 2004
4 Collett International Research: 2000, 2002 Functional Verification Studies; 2003 Design Closure Study, Jan. 2004
5 Clark & Wheelwright, "The Product Development Challenge," HBS 1994
6 Craig Matsumoto, "But integration bandwagon not for everyone," EE Times, Oct. 1999
7 A.Khan, et al., "A 150 MHz Graphics Rendering Processor with 256Mb Embedded DRAM," Proc. ISSCC, pp. 150-151, 442, Feb. 2001
8 A.Khan et al., "Design and Development of the First Single-Chip Full-Duplex OC48 Traffic Manager and ATM SAR SoC," CICC, Sep. 03
依次為 圖1a-圖13a
評論