博客專欄

        EEPW首頁 > 博客 > AI 大模型最新突破:幫科學家讀論文,小菜一碟

        AI 大模型最新突破:幫科學家讀論文,小菜一碟

        發布人:傳感器技術 時間:2022-11-17 來源:工程師 發布文章

        作者 | 施方圓

        編輯 | 陳彩嫻

        自人類邁入信息時代開始,信息資源總量越來越多,信息過載的現象非常嚴重。

        英國學者帶姆·喬丹曾說:“擁有太多信息使信息的利用變得不可能。” 美國工程師 Vannever Bush 也觀察到信息過載的情況,在上個世紀就提出通過計算機來解決日益龐大的信息量問題。

        Meta AI 新近推出的語言大模型 Galactica,正是在這樣的背景下誕生。

        由于語言模型可以潛在地儲存、組織和推理科學知識,所以語言模型可以作為一種工具幫人類處理大量的信息。例如,語言模型可以在一個文獻訓練中發現不同研究中潛在的聯系,并讓這些見解浮出水面。Galactica 通過自動生成二次內容來整合知識,將論文與代碼連接起來,為科學研究提供動力。

        目前,Meta AI 已開放了 Galactica 所有模型的源代碼。

        圖片論文地址:https://galactica.org/static/paper.pdfgithub地址:https://github.com/paperswithcode/galai



        1
        精心設計的語料庫

        近年來,大型語言模型在 NLP 任務上取得了突破性的進展。這些模型在大型通用語料庫上進行自我監督訓練,并在數百個任務中表現良好。

        但自監督的一個缺點是傾向使用未經整理的數據,模型可能反映語料庫中的錯誤信息、刻板印象和偏見等。對于重視真理的科學任務來說,這是不可取的,未經整理的數據也意味著會浪費更多算力預算。

        Galactica 用一個大型科學語料庫訓練一個單一的神經網絡,以學習不同的科學語言。Galactica 的語料庫包括了論文、參考資料、百科全書和其他學科資源的 1060 億個 token 組成,集合了自然語言來源,如論文、教科書和自然序列,如蛋白質序列和化學公式,能夠捕捉到 LATEX 并對其進行處理,同時還用學術代碼捕捉計算科學。

        與其他規模更大、未經策劃的大型語言模型項目相比,Galactica 使用的數據集規模更小,而且是經過精心策劃的,這很關鍵,即我們能否在一個經過策劃和規范的語料庫上制造一個好的大型語言模型。如果可以,我們就能通過設置語料庫的內容,更有目的性地設計出大型語言模型。

        研發者們主要通過專業化標記來設計數據集,這會形成不同的模態,例如:蛋白質序列是根據氨基酸殘基來寫的。研發團隊還對不同模態進行了專門的標簽化。在處理好了數據集后,研發者們在 Galactic 的****設置中使用了 Transformer 架構,并進行了以下修改:

        GeLU 激活——對所有模型的尺寸都使用了 GeLU 激活;

        上下文窗口——對所有的模型尺寸都使用了 2048 長度的上下文窗口;

        無偏差——遵循 PaLM ,不在任何密集核或層規范中使用偏差;

        學習的位置嵌入——對模型使用學習的位置嵌入,在較小的尺度上試驗了 ALi Bi ,但沒有觀察到大的收益,所以研發者們沒有使用它;

        詞語——使用 BPE 構建了一個包含 50k 個標記組成的詞匯表,詞匯量是由隨機選擇的 2% 的訓練數據子集中產生的。



        2
        實驗效果

        研發者們還對大型語言模型作為科學模式和自然語言之間的橋梁的潛力進行了初步調查,展示了 Galactica 可以通過自監督來學習 IUPAC 命名等任務。他們發現,增加連接自然語言和自然序列的數據及數量和大小可能進一步提高模型的性能。

        研發者們認為語言模型有更多潛力承擔目前人類所擅長的事情。

        而且為了考察 Galactica 吸收知識的情況,研發者們還建立了幾個知識探針的基準,并用于確定語料庫內的知識差距,并告知如何確定語料庫內的知識差距和迭代語料庫。

        另外,Galactica 在推理方面表現十分出色,在數學 MMLU 上的表現優于 Chinchilla 41.3% 至 35.7%,在 MATH 上的 PaLM 540B 得分分別為 20.4% 和 8.8%。

        圖片

        圖片

        在經過四個 epoch 的訓練之后,最大的 120B 參數模型從第五個 epoch 才開始過度擬合。

        圖片

        盡管沒有接受過一般語料庫的訓練,但 Galactica 在 BIG-bench 上的表現優于 BLOOM 和 OPT-175B。根據評估,Galactica 的毒性也明顯低于其他語言模型。

        圖片

        圖片



        3
        Galactica 猶如自動駕駛

        Meta AI 發布 Galactica 后,在 AI 領域引起廣泛注意,并收獲了一眾好評。

        Yann LeCun 評論:這個工具( Galactica )于論文寫作而言,就像輔助駕駛之于駕駛一樣,它不會幫你自動寫論文,但它會在你寫論文的時候大大減輕你的認知負擔。

        圖片

        其他研究者則評論:

        太神奇了!Galactica 甚至可以針對某個領域寫評論,推導 SVM ,告訴我什么是線性回歸算法!只是生產內容的長度好像有限制?

        圖片

        真是太神奇了!我只是用這個來幫我寫“選擇性注意研究”評論——它看起來很不錯,也許下一步它就可以產生真正的想法!

        圖片

        50 多年來,人類獲取科學知識的主要方式一直是通過存儲和檢索,信息的推理、組合、組織無法依靠機器,只能通過人的努力完成,這導致知識吞吐量存在瓶頸。在 Galactica 的實踐中,研發者們探討了語言模型可能如何破壞這種舊的形式,帶來人與知識的新接口。

        從長遠來看,語言模型的上下文關聯能力可能會給搜索引擎帶來顯著優勢。在 Galactica 的實踐中,研發者們還證明語言模型可以是一個精心策劃的知識庫,執行知識密集型的問答任務。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        led顯示器相關文章:led顯示器原理




        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 安达市| 高平市| 泽普县| 山西省| 九台市| 五家渠市| 大新县| 集安市| 西华县| 太保市| 砀山县| 德江县| 北辰区| 桑植县| 荔波县| 平谷区| 南和县| 衡水市| 淳安县| 开化县| 阜阳市| 建阳市| 太仓市| 萝北县| 葫芦岛市| 南安市| 盖州市| 蒲江县| 夏津县| 临泽县| 兖州市| 龙南县| 西乡县| 淮安市| 保山市| 双辽市| 邻水| 布尔津县| 六安市| 新野县| 肇庆市|