新聞中心

        EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 微軟發(fā)布 Phi-3.5 系列 AI 模型:上下文窗口 128K,首次引入混合專家模型

        微軟發(fā)布 Phi-3.5 系列 AI 模型:上下文窗口 128K,首次引入混合專家模型

        作者: 時間:2024-08-21 來源:IT之家 收藏

        IT之家 8 月 21 日消息,公司今天發(fā)布了 系列 AI 模型,其中最值得關(guān)注的是推出了該系列首個混合專家模型(MoE)版本 -MoE。

        本文引用地址:http://www.104case.com/article/202408/462244.htm

        本次發(fā)布的 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款輕量級 AI 模型,基于合成數(shù)據(jù)和經(jīng)過過濾的公開網(wǎng)站構(gòu)建,上下文窗口為 128K,所有模型現(xiàn)在都可以在 Hugging Face 上以 MIT 許可的方式獲取。IT之家附上相關(guān)介紹如下:

        Phi-3.5-MoE:首個混合專家模型

        Phi-3.5-MoE 是 Phi 系列中首個利用混合專家(MoE)技術(shù)的模型。該模型在 16 x 3.8B MoE 模型使用 2 個專家僅激活了 66 億個參數(shù),并使用 512 個 H100 在 4.9T 標記上進行了訓(xùn)練。

        研究團隊從零開始設(shè)計該模型,以進一步提高其性能。在標準人工智能基準測試中,Phi-3.5-MoE 的性能超過了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash,并接近目前的領(lǐng)先者 GPT-4o-mini。

        Phi-3.5-vision:增強型多幀圖像理解

        Phi-3.5-vision 共有 42 億個參數(shù),使用 256 個 A100 GPU 在 500B 標記上進行訓(xùn)練,現(xiàn)在支持多幀圖像理解和推理。

        Phi-3.5-vision 在 MMMU(從 40.2 提高到 43.0)、MMBench(從 80.5 提高到 81.9)和文檔理解基準 TextVQA(從 70.9 提高到 72.0)上的性能均有提高。

        Phi-3.5-mini:輕量級、強功能

        Phi-3.5-mini 是一個 38 億參數(shù)模型,超過了 Llama3.1 8B 和 Mistral 7B,甚至可媲美 Mistral NeMo 12B。

        該模型使用 512 個 H100 在 3.4T 標記上進行了訓(xùn)練。該模型僅有 3.8B 個有效參數(shù),與擁有更多有效參數(shù)的 LLMs 相比,在多語言任務(wù)中具有很強的競爭力。

        此外,Phi-3.5-mini 現(xiàn)在支持 128K 上下文窗口,而其主要競爭對手 Gemma-2 系列僅支持 8K。




        關(guān)鍵詞: 微軟 生成式AI Phi-3.5

        評論


        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 金塔县| 巩留县| 长乐市| 大埔区| 大冶市| 高台县| 宣恩县| 姚安县| 镇沅| 临清市| 惠水县| 正定县| 武陟县| 察隅县| 伽师县| 剑河县| 神农架林区| 子长县| 临高县| 洞口县| 汤阴县| 福州市| 平谷区| 托克逊县| 日喀则市| 茂名市| 乌海市| 商洛市| 平湖市| 凤庆县| 诸城市| 司法| 沂南县| 澄城县| 化德县| 偃师市| 那曲县| 玉门市| 中西区| 若羌县| 外汇|