新聞中心

EEPW首頁 > 智能計算 > 業界動態 > 微軟發布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合專家模型

微軟發布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合專家模型

作者：時間：2024-08-21 來源：IT之家

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

IT之家 8 月 21 日消息，微軟公司今天發布了 Phi-3.5 系列 AI 模型，其中最值得關注的是推出了該系列首個混合專家模型（MoE）版本 Phi-3.5-MoE。

本文引用地址：http://www.104case.com/article/202408/462244.htm

微軟發布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合專家模型

本次發布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款輕量級 AI 模型，基于合成數據和經過過濾的公開網站構建，上下文窗口為 128K，所有模型現在都可以在 Hugging Face 上以 MIT 許可的方式獲取。IT之家附上相關介紹如下：

Phi-3.5-MoE：首個混合專家模型

Phi-3.5-MoE 是 Phi 系列中首個利用混合專家（MoE）技術的模型。該模型在 16 x 3.8B MoE 模型使用 2 個專家僅激活了 66 億個參數，并使用 512 個 H100 在 4.9T 標記上進行了訓練。

微軟研究團隊從零開始設計該模型，以進一步提高其性能。在標準人工智能基準測試中，Phi-3.5-MoE 的性能超過了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash，并接近目前的領先者 GPT-4o-mini。

Phi-3.5-vision：增強型多幀圖像理解

Phi-3.5-vision 共有 42 億個參數，使用 256 個 A100 GPU 在 500B 標記上進行訓練，現在支持多幀圖像理解和推理。

Phi-3.5-vision 在 MMMU（從 40.2 提高到 43.0）、MMBench（從 80.5 提高到 81.9）和文檔理解基準 TextVQA（從 70.9 提高到 72.0）上的性能均有提高。

Phi-3.5-mini：輕量級、強功能

Phi-3.5-mini 是一個 38 億參數模型，超過了 Llama3.1 8B 和 Mistral 7B，甚至可媲美 Mistral NeMo 12B。

該模型使用 512 個 H100 在 3.4T 標記上進行了訓練。該模型僅有 3.8B 個有效參數，與擁有更多有效參數的 LLMs 相比，在多語言任務中具有很強的競爭力。

此外，Phi-3.5-mini 現在支持 128K 上下文窗口，而其主要競爭對手 Gemma-2 系列僅支持 8K。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>