隨著人工智能興起,利用“深度學習”技術進行計算機視覺工作已是很普遍的應用,如圖像分類、對象檢測等。通常只需將單張圖像送入訓練好的模型中進行推理即可得到輸出結果,但當遇到視頻文件或串流視頻時,逐格(by Frame)圖像分析就變得很沒效率,因為幀間時間差距過短(通常為1/30~1/60秒),場景中的對象位移量(變形量)可能過小,導致幀間得到幾乎相同的計算結果(對象位置、尺寸及分類),浪費計算資源,也讓系統看起來反應過慢。 為了使視頻文件及串流視頻在分析上能加快反應,Intel OpenVINO Too