新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 挑戰DeepSeeK 「AI教母」打造AI模型訓練成本不到50美元

        挑戰DeepSeeK 「AI教母」打造AI模型訓練成本不到50美元

        作者: 時間:2025-02-08 來源:中時電子報 收藏

        DeepSeek強敵來了! 被譽為「AI教母」的知名華裔美籍科學家領導的團隊,以低于50美元的云計算成本,成功訓練出名為「s1」的人工智能推理模型。 此模型在數學和編碼能力測驗中的表現,據稱媲美OpenAI o1和DeepSeek R1等尖端推理模型。

        本文引用地址:http://www.104case.com/article/202502/466749.htm

        科創板日報、新浪科技報道,團隊的s1模型并非從頭訓練,而是建立在阿里巴巴的Qwen2.5 和 Google DeepMind的Gemini 2.0 Flash Thinking的基礎之上。 他們搜集了1000個精心挑選的問題及其解答,并通過記錄 Gemini 2.0 Flash 的思考過程,建立訓練資料集,利用這些資料,微調了Qwen2.5-32B-Instruct模型,創造出s1。

        大陸某知名大模型公司CEO表示,團隊的成就實際上是利用從 Google 模型中擷取的 1000 個樣本來微調通義千問模型。 這種微調的成本固然低廉,但其優異表現仍有賴于既有模型的基礎。

        上海交通大學人工智能學院副教授謝偉迪指出,s1以通義千問模型為基礎,因此即使使用有限的樣本資料,也能產生新的推理模型。 然而,如果更換其他基礎模型,新模型的效能并不會提升。 因此,真正在背后發揮效能的關鍵是Qwen模型,而非 s1。

        阿里云證實,李飛飛團隊通過利用阿里開源的Qwen2.5-32B-Instruct模型進行監督微調,在16個英偉達H100 GPU上僅花費26分鐘就訓練出s1-32B模型,其數學和編碼能力與OpenAI o1和DeepSeek R1等尖端推理模型不相上下。




        評論


        技術專區

        關閉
        主站蜘蛛池模板: 平湖市| 抚州市| 萨迦县| 涿鹿县| 五莲县| 拜泉县| 金堂县| 泗洪县| 炉霍县| 手游| 廉江市| 昭觉县| 甘肃省| 邯郸县| 广昌县| 阳谷县| 宜都市| 巢湖市| 邵阳县| 随州市| 岱山县| 南京市| 永济市| 白河县| 鹤山市| 建宁县| 宽城| 竹溪县| 永济市| 清镇市| 乌兰浩特市| 镇赉县| 宜良县| 宝山区| 扶沟县| 迭部县| 成安县| 九台市| 连江县| 奉新县| 米易县|