通過FLIX指令結構提高可配置處理器計算性能
解決長指令字體系結構代碼膨脹的一種有效方法是采用更加靈活的指令長度。如果處理器允許多種不同的指令長度,包括各種對單一操作進行編碼的短指令,那么與傳統長指令字VLIW處理器相比,編譯器就可以獲得更加有效的指令代碼大小和更加有效的指令存儲效率。對長指令字處理器而言,減少代碼大小還意味著減少所要求的總線帶寬,并且減少了與取指令相關的功耗。例如,Tensilica的 Xtensa LX處理器采用了靈活的指令擴展技術(FLIX)。該體系結構的指令代碼尋址可以提供16位、24位和選擇一種32位或者64位的指令長度。設計人員定義的指令可以使用24位、32位和64位的指令格式。
長指令允許用戶更加自由地進行編碼。在這種情況下,用戶可以根據每個指令槽指令操作的多少來定義(雖然在通常情況下有3到6個獨立的指令操作槽)大量的子指令和操作。各個指令槽的大小不需要相等。大的指令槽(20到30位)可以放置各種不同的操作碼、寄存器個數相對多的寄存器文件(16 到32個寄存器)以及3個或者4個寄存器操作數標志符。系統開發人員應當考慮到建立具有大指令槽的處理器,這種大指令槽針對應用,具有適度的并行性,但是在應用領域內應當具有較強的靈活性和一般性。
小的指令槽(8~16位)讓用戶可以直接說明小寄存器集之間數據的移動,并且允許用戶將大量的獨立指令槽打包成一個長指令字。每一個指令槽提供更有限的操作范圍、更少的操作標志符(或更多隱含的操作數)及使用更少寄存器的文件。開發人員應當考慮根據不同應用建立許多小的指令槽,這些應用在許多專用功能部件之間具有高度的并行性。
長指令字和自動處理器生成
長指令字非常適合處理器硬件和軟件的自動生成。高級指令描述可以說明適合每個指令槽的子指令集。從這些指令描述中,處理器產生器確定每個指令槽中每個編碼域的編碼要求、分配操作碼并建立針對所有必需的指令格式的指令譯碼硬件。而且處理器產生器還建立與長指令字處理器相應的編譯器和匯編器。對于長指令字體系結構而言,將子指令打包成長指令是一項非常復雜的任務。匯編器可以處理這種指令包,因此程序員寫的匯編語言源代碼程序只需要指定不同操作或者子指令,不必過分關注打包的約束。編譯器在滿足系統具有最大性能和最小代碼容量的前提下產生適合指令槽的程序代碼,因此通常需要自己將各類操作打包成長指令。
圖4表示用FLIX技術中的TIE語言描述的一個簡短且完整的長指令字處理器。該處理器完全建立在32位的整數操作的基礎上,并沒有定義新的操作。此描述建立了一個具有高度潛在指令級并行性的處理器,其應用完全用標準C整數操作和數據類型寫成。三個指令槽中的第一個指令槽支持全部常用的整數操作,包括ALU操作、加載、存儲、跳轉和分支指令操作。第二個指令槽提供加載和存儲操作,另外還包括大多數常用的ALU操作。第三個指令槽補充全部 ALU操作,但是不包括加載和存儲操作。
圖3中的第一行說明了一個新的64位指令長度,并指定了確定指令長度的前4位編碼。第二行說明了指令長度格式為format1,它包括 3個指令槽,分別為base_slot、ldst_slot和alu_slot,并且在新指令格式中對這三個指令槽進行了命名。第四行列出了第一個指令槽 base_slot所有可能包含的TIE指令。在這種情況下,所有在Xtensa LX處理器中的指令(除了新指令)都可能包含在這個指令槽中。處理器產生器還為每個指令槽產生一個空操作NOP,因此軟件工具總是可以產生完整的指令,即使找不到可以封裝到長指令字中的合適操作。第四行和第五行指定可以包含在其它兩個指令槽中的指令子集.
評論