新聞中心

        EEPW首頁 > 業界動態 > 無需「域外」文本,微軟:NLP就應該針對性預訓練

        無需「域外」文本,微軟:NLP就應該針對性預訓練

        作者: 時間:2020-08-10 來源:51cto 收藏

         在生物醫學這樣的專業領域訓練模型,除了特定數據集,「域外」文本也被認為是有用的。但最近,的研究人員「大呼」:我不這么覺得!

        本文引用地址:http://www.104case.com/article/202008/416905.htm

        什么是預訓練?這是一個拷問人工智能「門外漢」的靈魂問題。生而為人,我們不需要一切從零開始學習。但是,我們會「以舊學新」,用過去所學的舊知識,來理解新知識和處理各種新任務。在人工智能中,預訓練就是模仿人類這個過程。

        預訓練(pre-training)這個詞經常在論文中見到,指的是用一個任務去訓練一個模型,幫助它形成可以在其他任務中使用的參數。

        用已學習任務的模型參數初始化新任務的模型參數。通過這種方式,舊的知識可以幫助新模型從舊的經驗中成功地執行新任務,而不是從零開始。

        以前的研究已經表明,在像生物醫學這樣的專業領域,當訓練一個模型時,特定領域的數據集可以提高準確性。不過,還有一個普遍的認識是,「域外」文本也有用。但是!研究人員對這一假設提出了質疑。

         近日,研究人員提出一種人工智能技術,針對生物醫學的領域特定語言模型預訓練。并自信地說,通過從公開的數據集中編譯一個「全面的」生物醫學NLP基準,在包括命名實體識別、基于證據的醫學信息提取、文檔分類等任務上取得了最先進的成果。

        他們認為,「混合領域」預訓練?不就是遷移學習的另一種形式嗎?源領域是一般文本(如新聞),目標領域是專門文本(如生物醫學論文)。

        在此基礎上,針對特定領域的生物醫學NLP模型的預訓練總是優于通用語言模型的預訓練,說明「混合領域」預訓練并不完美。

        神經語言模型預訓練的兩種范式。「混合領域」預訓練(上);只使用域內文本預訓練(下)

        如此自信,研究人員是有證據的。他們通過對生物醫學NLP應用的影響,比較了訓練前的建模和特定任務的微調。

        第一步,他們創建了一個名為生物醫學語言理解和推理基準(BLURB)的基準,該基準側重于PubMed(一個生物醫學相關的數據庫)提供的出版物,涵蓋了諸如關系提取、句子相似度和問題回答等任務,以及諸如是/否問題回答等分類任務。為了計算總結性分數,BLURB中的語料庫按任務類型分組,并分別打分,之后計算所有的平均值。

        為了評估,他們又在最新的PubMed文檔中生成了一個詞匯表并訓練了一個模型:1400萬篇摘要和32億個單詞,總計21GB。在一臺擁有16個V100顯卡的Nvidia DGX-2機器上,培訓了大約5天時間。這個模型具有62,500步長和批量大小,可與以前生物醫學預訓練實驗中使用的計算量相媲美。

        又一個自信,研究人員說他們的模型——PubMedBERT,是建立在谷歌的BERT之上。

        那個牛掰掰的BERT?Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領域最具有突破性的一項技術。

        但有趣的是,將PubMed的全文添加到預訓練文本(168億字)中會讓性能略有下降,直到預訓練時間延長。但研究人員將這部分歸因于數據中的噪聲。

        “在本文中,我們挑戰了神經語言預訓練模型中普遍存在的假設(就是前面說的「混合領域」預訓練),并證明了從「無」開始對特定領域進行預訓練可以顯著優于「混合領域」預訓練。「為生物醫學NLP的應用帶來了新的、最先進的結果,」研究人員寫道,「我們未來會進一步探索特定領域的預培訓策略,將BLURB基準擴展到臨床或其他高價值領域。」

        為了鼓勵生物醫學NLP的研究,研究人員創建了一個以BLURB基準為特色的排行榜。他們還以開源的方式發布了預先訓練過的特定任務模型。

        研究已發布于預印論文網站arxiv上。



        關鍵詞: 微軟 NLP

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 林芝县| 道孚县| 镇雄县| 桐庐县| 平定县| 灵宝市| 通辽市| 那坡县| 拜城县| 政和县| 龙泉市| 望江县| 巩义市| 株洲市| 宁陵县| 遵义市| 渝中区| 延长县| 甘谷县| 象州县| 黄浦区| 新疆| 中江县| 绵竹市| 铁岭市| 江川县| 宝兴县| 淳安县| 渝中区| 新昌县| 清镇市| 靖宇县| 抚州市| 邛崃市| 靖州| 大港区| 古交市| 安丘市| 商水县| 周口市| 灵川县|