新聞中心

        EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 英偉達(dá) Parakeet TDT 0.6B 成開源 ASR 新王:1秒轉(zhuǎn)錄60分鐘音頻

        英偉達(dá) Parakeet TDT 0.6B 成開源 ASR 新王:1秒轉(zhuǎn)錄60分鐘音頻

        作者: 時(shí)間:2025-05-08 來源:IT之家 收藏

        5 月 7 日消息,科技媒體 marktechpost 昨日(5 月 6 日)發(fā)布博文,報(bào)道稱最新推出 ,是一款先進(jìn)的)模型,已在 Hugging Face 平臺(tái)上完全

        本文引用地址:http://www.104case.com/article/202505/470178.htm

        的核心優(yōu)勢在于其無與倫比的速度和轉(zhuǎn)錄質(zhì)量。該模型僅需 1 秒即可處理 60 分鐘音頻,是現(xiàn)有主流 典型模型速度的 50 倍。

        在 Hugging Face 的 Open Leaderboard 上,其字錯(cuò)率(WER)低至 6.05%,成為模型中的佼佼者。這一性能為實(shí)時(shí)轉(zhuǎn)錄、語音分析、呼叫中心智能和音頻內(nèi)容索引等企業(yè)級(jí)應(yīng)用提供了強(qiáng)大支持。

        無標(biāo)題.jpg

        該模型基于 Transformer 架構(gòu),結(jié)合高質(zhì)量轉(zhuǎn)錄數(shù)據(jù)進(jìn)行微調(diào),并針對(duì)硬件優(yōu)化推理。

        援引博文介紹,該模型關(guān)鍵特性包括:6 億參數(shù)的編碼-解碼結(jié)構(gòu)、量化和融合內(nèi)核以提升推理效率、支持 TDT(Transducer Decoder Transformer)架構(gòu),以及精確的時(shí)間戳、數(shù)字格式化和標(biāo)點(diǎn)恢復(fù)功能。

        此外,該模型還開創(chuàng)性地支持歌曲轉(zhuǎn)歌詞轉(zhuǎn)錄,這一罕見功能拓展了音樂索引和媒體平臺(tái)的用例,依托的 TensorRT 和 FP8 量化技術(shù),其實(shí)時(shí)率(Real Time Factor,RTF,模型處理時(shí)間和音頻長度的比值)達(dá)到 3386。

        Parakeet TDT 0.6B 不僅關(guān)注速度和精度,還內(nèi)置了多項(xiàng)獨(dú)特功能。該模型能將歌曲內(nèi)容轉(zhuǎn)為歌詞,適用于音樂和媒體領(lǐng)域;支持?jǐn)?shù)字和時(shí)間戳格式化,提升會(huì)議記錄、法律轉(zhuǎn)錄和醫(yī)療記錄的可讀性;標(biāo)點(diǎn)恢復(fù)功能則增強(qiáng)了下游自然語言處理(NLP)應(yīng)用的表現(xiàn)。這些特性大幅提升轉(zhuǎn)錄質(zhì)量,減輕后期處理或人工編輯的負(fù)擔(dān),尤其適合企業(yè)級(jí)部署。



        評(píng)論


        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 兰考县| 石景山区| 杭州市| 洱源县| 建宁县| 都江堰市| 宿迁市| 东乡县| 大名县| 肇东市| 凤城市| 辽中县| 太仆寺旗| 广平县| 塘沽区| 温泉县| 贡觉县| 荥经县| 罗山县| 长岭县| 大姚县| 和平县| 金门县| 汉中市| 开封县| 循化| 绵竹市| 海宁市| 西宁市| 丹阳市| 独山县| 准格尔旗| 双峰县| 太保市| 保德县| 鄂伦春自治旗| 米泉市| 宝山区| 五寨县| 乌兰察布市| 太康县|