博客專欄

        EEPW首頁 > 博客 > 聆思CSK6大模型多模態語音交互開源SDK介紹

        聆思CSK6大模型多模態語音交互開源SDK介紹

        發布人:ListenAI 時間:2024-06-13 來源:工程師 發布文章

        聆思CSK6大模型多模態SDK除了支持語音交互之外,還支持圖像方面的交互,包括對圖像的識別以及圖片生成。用戶可以通過語音交互、攝像頭拍照作為交互入口,實現與大模型的多模態交互。


        SDK主要包含以下功能:

        ●語音交互:支持按鍵錄音或喚醒后通過語音與大模型進行對話

        ●拍照識圖:支持通過攝像頭拍攝圖像并上傳給大模型進行識別,支持依據識圖內容進行提問

        ●圖片生成:支持通過語音交互描述畫面內容,令大模型生成圖片并顯示至套件屏幕上



        語音交互模式支持的語音交互模式

        多模態SDK支持三種交互方式,其特點如下:

        模式

        喚醒方式

        交互方式

        按鍵交互

        按下屏幕麥克風圖標或開發板K3按鍵

        按住按鍵說話,松開提交

        語音喚醒(單輪)

        喚醒詞 “小美小美”

        聽到提示音 “在呢” 后進行提問,每次提問均需要喚醒

        語音喚醒(多輪)

        喚醒詞 “小美小美”

        聽到提示音 “在呢” 后進行提問,可持續對話,當超過20秒無語音輸入時自動結束本次交互


        語音交互模式的切換

        在待機頁面,下滑可調出下滑菜單,點擊下滑菜單中的 設置圖標,可進行配置頁面:

        選中對應的模式后,點擊左上角即可回到待機頁面并生效。


        按鍵交互模式

        設置成按鍵交互(按鍵喚醒)模式下,按住屏幕上的麥克風按鈕或開發板上的K3按鍵,即進入錄音狀態,松開按鍵則結束錄音并提交。


        語音喚醒模式

        當設置為語音喚醒(單輪)語音喚醒(多輪),可通過喚醒詞 —— “小美小美” 對設備進行喚醒,當聽到 “在呢” 的提示音后,即可正常進行語音輸入。

        退出對話

        在使用過程中,點擊左上角結束本輪對話回到待機頁面,此操作會同步清除本次對話的上下文信息。



        拍照識圖

        在待機頁,點擊拍照按鈕即可進入取景頁面,對準要拍照的物體,點擊右側中間的拍照鍵完成抓拍,確認畫面抓拍正常后(無晃動模糊的情況),點擊右側的 √ 進行提交識別:


        文生圖

        在設備進入語音交互狀態后,可以通過帶有繪畫意圖的提示詞讓大模型進行作畫,比如:

        ●“畫一只熊貓”

        ●“畫一個人正在使用電腦”

        SDK資源下載

        語音視覺大模型開發板 SDK:https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

        DEMO固件下載:https://docs2.listenai.com/x/UzjbjIAxw



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。




        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 商丘市| 白河县| 会昌县| 库车县| 墨竹工卡县| 商城县| 镇原县| 南汇区| 西昌市| 屏东县| 宝山区| 岳阳县| 佛坪县| 滦平县| 深州市| 遂昌县| 祁门县| 平定县| 昌黎县| 伊宁市| 福贡县| 万盛区| 华容县| 和龙市| 龙井市| 永宁县| 寿光市| 吉林省| 汕尾市| 闽侯县| 鲁甸县| 泰兴市| 南川市| 满洲里市| 板桥市| 灵石县| 沂源县| 紫金县| 奉节县| 绥阳县| 博白县|