新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 英偉達 Parakeet TDT 0.6B 成開源 ASR 新王:1秒轉錄60分鐘音頻

        英偉達 Parakeet TDT 0.6B 成開源 ASR 新王:1秒轉錄60分鐘音頻

        作者: 時間:2025-05-08 來源:IT之家 收藏

        5 月 7 日消息,科技媒體 marktechpost 昨日(5 月 6 日)發布博文,報道稱最新推出 ,是一款先進的)模型,已在 Hugging Face 平臺上完全

        本文引用地址:http://www.104case.com/article/202505/470178.htm

        的核心優勢在于其無與倫比的速度和轉錄質量。該模型僅需 1 秒即可處理 60 分鐘音頻,是現有主流 典型模型速度的 50 倍。

        在 Hugging Face 的 Open Leaderboard 上,其字錯率(WER)低至 6.05%,成為模型中的佼佼者。這一性能為實時轉錄、語音分析、呼叫中心智能和音頻內容索引等企業級應用提供了強大支持。

        無標題.jpg

        該模型基于 Transformer 架構,結合高質量轉錄數據進行微調,并針對硬件優化推理。

        援引博文介紹,該模型關鍵特性包括:6 億參數的編碼-解碼結構、量化和融合內核以提升推理效率、支持 TDT(Transducer Decoder Transformer)架構,以及精確的時間戳、數字格式化和標點恢復功能。

        此外,該模型還開創性地支持歌曲轉歌詞轉錄,這一罕見功能拓展了音樂索引和媒體平臺的用例,依托的 TensorRT 和 FP8 量化技術,其實時率(Real Time Factor,RTF,模型處理時間和音頻長度的比值)達到 3386。

        Parakeet TDT 0.6B 不僅關注速度和精度,還內置了多項獨特功能。該模型能將歌曲內容轉為歌詞,適用于音樂和媒體領域;支持數字和時間戳格式化,提升會議記錄、法律轉錄和醫療記錄的可讀性;標點恢復功能則增強了下游自然語言處理(NLP)應用的表現。這些特性大幅提升轉錄質量,減輕后期處理或人工編輯的負擔,尤其適合企業級部署。



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 浪卡子县| 英超| 洪泽县| 县级市| 宜春市| 曲水县| 沙坪坝区| 桦甸市| 玛沁县| 奉贤区| 巴中市| 贡觉县| 堆龙德庆县| 浦城县| 晋江市| 奉贤区| 张家港市| 大余县| 垦利县| 来凤县| 乐清市| 高尔夫| 临潭县| 民权县| 垣曲县| 田阳县| 永安市| 阿拉善右旗| 巴南区| 金门县| 武鸣县| 沭阳县| 腾冲县| 依安县| 习水县| 尉犁县| 襄汾县| 新乡市| 阳朔县| 乡城县| 宁强县|