新聞中心

        EEPW首頁 > 智能計算 > 設計應用 > 從基礎能力到應用,大模型實測結果揭曉

        從基礎能力到應用,大模型實測結果揭曉

        作者: 時間:2024-06-11 來源:IDC 收藏

        OpenAI 于 2023 年 3 月 14 日發布最新版本多模態 GPT-4 及其 API;在中國市場,模型的通用性和泛化能力吸引了各大廠商布局,市場上的/生成式AI產品紛至沓來。2024年5月,全球代表性AI技術供應商如OpenAI發布了更新的GPT-4o,在文本、圖像、音頻和視頻等多模態融合嘗試方面展現出強大的能力,能夠以這三者的任意組合進行輸入和輸出,Google也發布了大模型Gemini的最新功能、文生圖模型Imagen3、對標Sora的文生視頻模型Veo等。IDC觀察到,在中國市場,從2024年第二季度開始,越來越多的AI技術供應商開始更新升級基礎大模型及相關產品,新一輪的“百模大戰”一觸即發。

        本文引用地址:http://www.104case.com/article/202406/459752.htm

        實測方法

        本次實測面向市場上主流的大模型技術供應商,產品必須是已經開放使用,并按照國家互聯網信息辦公室要求已經完成備案。測試的媒介主要是基于基礎大模型的網頁版的產品,IDC對參與廠商的產品表現分別進行測評。基礎能力問題涉及問答理解類、推理類、創作表達類、數學類、代碼類等;應用問題主要包含toC通用場景類和toB特定行業類,每一類單獨計分。

        image.png

        基礎大模型產品實測結果評述

        為對比國內外大模型的產品差異以及推動大模型/生成式AI相關產品的發展和應用,IDC成立產品測試團隊,通過多個維度(如生成質量、使用與性能、安全與合規等)對基礎大模型及相關產品進行評測,并邀請外部專家團隊深入分析各個產品答案準確性、合理性等,并在審核委員會的監督下,最終得出各廠商的評估結果,供用戶選型參考。

        綜合最終的得分情況,基礎大模型產品能力處于第一梯隊的有(梯隊產品表現在同一均線,以下按照技術供應商首字母順序排列):阿里通義千問/通義萬相等通義系列生成式AI產品、百度文心一言/文心一格、科大訊飛訊飛星火 3.5 Max、OpenAI GPT4、商湯日日新SenseNova 5.0。

        在所有的題目類型中,目前如問答理解、toC通用場景類得分率較高,數學類、推理類、代碼類問題、行業應用類的準確率較低,需進一步優化。詳細的測評結果展示如下:

        image.png

        image.png

        IDC中國大模型產品測試團隊表示,2024年產業界更加關注大模型和生成式AI的落地,生成式AI的進一步發展需要多種模態的大模型作為引擎。更為接近人類的思維方式,是未來大語言模型競爭的關鍵,技術供應商還需持續優化大模型在數學、推理、代碼等問題以及在行業應用中的生成質量,提高生成的速度并降低大模型使用的成本,加快大模型技術的應用與普及。

        image.png

        免責聲明

        本文中的內容和數據均來源于IDC所發布的報告,所有內容及數據均為我公司所有。未經IDC書面許可,任何機構和個人不得以任何形式翻版、復制、刊登、發表或引用。



        評論


        技術專區

        關閉
        主站蜘蛛池模板: 乐东| 鹤壁市| 石嘴山市| 儋州市| 梓潼县| 朝阳县| 灵川县| 博野县| 珲春市| 清镇市| 石泉县| 武清区| 鹤岗市| 寿宁县| 平阴县| 福建省| 即墨市| 鄂伦春自治旗| 江孜县| 绵阳市| 南昌县| 霸州市| 牟定县| 南平市| 遵化市| 苍梧县| 兴化市| 榆中县| 宁海县| 高台县| 孝感市| 承德市| 云安县| 鸡西市| 惠来县| 浪卡子县| 天镇县| 苏尼特左旗| 黎平县| 富阳市| 潼南县|