新聞中心

        EEPW首頁 > 業界動態 > 中國AI又奪一冠!依圖刷榜全球聲紋識別挑戰賽,刷新紀錄,大比分奪魁

        中國AI又奪一冠!依圖刷榜全球聲紋識別挑戰賽,刷新紀錄,大比分奪魁

        作者:魚羊 時間:2019-09-12 來源:量子位 收藏

        本文經新媒體量子位(公眾號 ID: Qbit)授權轉載,轉載請聯系出處。

        本文引用地址:http://www.104case.com/article/201909/404744.htm

        中國軍團,繼續刷新全球AI各項競賽。

        這一次,是全球聲紋識別競賽;這一次,是獨角獸

        VoxCeleb說話人識別挑戰賽,簡稱VoxSRC,近日正式公布結果。


        在這場匯聚了中外語音領域頂級高手的挑戰賽中,(logicworld)以絕對領先優勢斬獲冠軍。

        而且挑戰賽比拼內容,正是當前語音識別領域最高精尖的“聲紋識別”賽道。

        之前已經展示了視覺感知、語音識別和語義理解等方面的不俗實力。

        現在,依圖則進一步用一個前沿技術領域的全球冠軍,展示了其技術深度之外,在廣度方面的開拓。

        真是依圖出沒,氣勢洶涌。

        依圖又奪何冠?

        VoxSRC,由來自牛津大學,斯坦福國際研究院和麻省理工的學者組織舉辦。

        參賽者包括約翰霍普金斯大學、法國國家信息與自動化研究所、日本電氣(NEC)等傳統豪強,也有中國的清華大學,天津大學,中山大學,依圖科技,平安科技等學校企業。

        選手都有備而來,比拼直接而激烈。

        指紋識別,人臉識別已經被大眾所熟知,但同樣作為生物信息識別的一種——聲紋識別(即說話人識別),目前還是技術挑戰的前沿,常在科幻電影中出現,也常被語音AI公司當展望談及。

        聲紋識別權威評判標準不多,但真正檢驗技術的,VoxCeleb說話人識別挑戰賽可能算一個。

        其主要考核,是運用AI技術如何能夠從自然語音中識別出說話人。

        比賽采用的訓練數據集為VoxCeleb2,由牛津大學發起提供。這一數據集中的音頻全部采集自YouTube,場景包括明星紅地毯、名人演講、真人節目訪談以及大型體育解說等,包含了5994位名人的超過一百萬條語音。

        這些名人涉及不同的性別,種族,口音,職業和年齡,并且音頻中存在各種各樣的背景噪聲,包括環境突發噪聲、背景人聲、笑聲、回聲,室內噪聲和錄音設備噪聲等等。

        比賽的測試集則全部沒有標注,屬于“盲測”,保證了競賽的公平與公正。

        面對如此挑戰,想讓AI準確提取聲學特征、說話人特征,并實現準確的識別匹配,并非易事。

        在發表于Interspeech 2018的論文中,VoxCeleb2的作者牛津大學Visual Geometry Group實驗室訓練出的ResNet-50達到了3.95%的等錯誤率(EER),超越了當時的基線方法。

        而就在這場比賽中,依圖不僅大幅刷新該紀錄,將EER壓縮至0.98%,還超出第二名(1.42%)一個身位,以絕對優勢奪冠。

        毫無疑問,這是一次技術實力的肌肉展示。

        但如果熟悉依圖業務,就可能忍不住想得更多。

        依圖參與全球聲紋識別競賽,又怎會是為了刷榜而刷榜?

        技術“冗余”,增強場景化落地

        從聲紋識別本身來說,作為生物識別技術的一種,應用前景原本就非常廣闊。

        在個人信息加密領域,更能發揮重要的作用。

        作為一種生物識別解決方案,聲紋識別在金融等對個人信息安全有高要求的行業當中,也能夠提供更高的安全性,強化風控能力。

        此外作為智能語音應用落地的更大挑戰,聲紋識別的攻堅,對于性別年齡畫像、語種方言識別,進而做到真正的語音交互千人千面,都是繞不過去的核心問題。

        而且隨著AI在各行各業的場景化落地越來越普遍,技術冗余,針對不同問題提供不同解決方案,也在成為AI公司競爭力的核心要求。

        在各項技術上有實力、有儲備,才能發展、落地更全面。

        也就意味著,AI公司下一階段發展,深度和廣度,都得兼備。

        AI公司的深度&廣度

        這或許也是依圖目前發展開拓的背后思路。

        之前,依圖被人熟知,更多是“CV四小龍”的并稱,強調其在視覺領域的地位。

        依圖也確實在多項視覺國際比拼中斬獲冠軍。比如依圖連續三年參加美國國家標準技術局(NIST)人臉識別供應商測試(FVRT),連續三次斬獲冠軍。

        在安防、金融和醫療領域,依圖的AI視覺能力,也贏得了真實業務場景的認可。

        但2018年以來,依圖開始展現出強大的“泛化”能力,開始將AI技術打通,并迅速在拓展領域取得核心突破。

        在語音領域,其語音識別算法在全球最大的開源中文數據庫AISHELL-2上字錯率僅3.71%,大幅刷新紀錄。

        在NLP方面,依圖聯合廣州婦女兒童醫療中心等機構,將自然語言處理(NLP)技術應用于兒科疾病診斷,成果登上《自然·醫學》(Nature Medicine),這也創下中國AI醫學的新紀錄。

        其后更令業界震動的是,依圖低調部署研發,完成了自主AI芯片“求索”的流片、發布并商用,以“算法即芯片”理念,提出智能密度的新理論,為AI場景化落地,提供坐標參考系。

        最近一次,由工信部、公安部及網信辦三部委指導主辦的“中國人工智能高峰論壇”上,依圖AI芯片不僅獲得了AI創新之星,依圖也在首屆多媒體信息識別競賽中,于11個任務中,斬獲10個A級,為所有參賽者中奪冠最多。

        所以,依圖路徑、依圖模式,也是時候值得更多討論了。

        這種模式在科技創業的歷史中并不陌生。先有垂直深度,然后平臺化遷移,打造技術更為全面、應用更加廣泛的大平臺。

        但在AI歷程中,這樣既要保證深度又有兼顧廣度的事情,依圖之外,還無人做到。

        所以聲紋之冠,或許還不是依圖實力的全部。

        依圖之路,也值得上下求索。

        你說呢?




        關鍵詞: AI 依圖

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 南溪县| 柘荣县| 吉木萨尔县| 大方县| 衡山县| 容城县| 苏尼特右旗| 玉溪市| 卢氏县| 绵竹市| 称多县| 迁西县| 巴彦淖尔市| 巴东县| 当阳市| 大悟县| 巢湖市| 仙桃市| 南康市| 色达县| 从化市| 光泽县| 黑山县| 台湾省| 常宁市| 五大连池市| 虎林市| 门头沟区| 谢通门县| 容城县| 隆安县| 康保县| 长葛市| 吴忠市| 仙游县| 汉寿县| 五指山市| 塔城市| 天津市| 卢龙县| 和林格尔县|