高效的C編程之:C循環結構
14.5.2循環展開
在14.5.1節中可以發現,每次循環需要在循環體外加兩條指令:一條減法指令來減少循環計數值和一條條件分支指令。通常這些指令稱為循環開銷(LoopOverhead)。在ARM7或ARM9處理器上,加法指令需要1個周期,條件分支指令需要3個周期,這樣每個循環就需要4個周期的開銷。
可以通過展開循環體(LoopUnrolling),即重復循環主體多次,同時按同樣的比例減少循環次數來降低循環開銷。
下面的例子通過將循環體展開4次,來達到減少循環開銷的目的。
intcountbit1(uintn)
{intbits=0;
while(n!=0)
{
if(n1)bits++;
n>>=1;
}
returnbits;
}
將循環主體展開。
intcountbit2(uintn)
{intbits=0;
while(n!=0)
{
if(n1)bits++;
if(n2)bits++;
if(n4)bits++;
if(n8)bits++;
n>>=4;
}
returnbits;
}
這里減少了4N的循環開銷(N=4,即循環體執行的次數)。如果循環體中存在耗時的Store/Load指令,則代碼執行效率的提高將更明顯。
ARM編譯器不會自動將循環體展開,只有用戶自己判斷何時將循環體展開,到底應該展開多少次,如果循環的次數不是循環展開的倍數該怎么辦?下面就將詳細討論,用戶編寫自己的循環展開程序時,需要注意的問題。
①只有當循環展開對提高應用程序的整體性能非常重要時,才進行循環展開;否則反而會增加代碼尺寸。
②應設法使循環的次數是循環展開的倍數。如果難以實現,那么就要增加額外的代碼來處理數組的剩余元素。這將增加少許代碼量,但可以保持較好的性能。
評論