博客專欄

EEPW首頁 > 博客 > 聆思CSK6大模型多模態語音交互開源SDK介紹

聆思CSK6大模型多模態語音交互開源SDK介紹

發布人：ListenAI 時間：2024-06-13 來源：工程師

發布文章

聆思CSK6大模型多模態SDK除了支持語音交互之外，還支持圖像方面的交互，包括對圖像的識別以及圖片生成。用戶可以通過語音交互、攝像頭拍照作為交互入口，實現與大模型的多模態交互。

SDK主要包含以下功能：

●語音交互：支持按鍵錄音或喚醒后通過語音與大模型進行對話

●拍照識圖：支持通過攝像頭拍攝圖像并上傳給大模型進行識別，支持依據識圖內容進行提問

●圖片生成：支持通過語音交互描述畫面內容，令大模型生成圖片并顯示至套件屏幕上

語音交互模式支持的語音交互模式

多模態SDK支持三種交互方式，其特點如下：

模式	喚醒方式	交互方式
按鍵交互	按下屏幕麥克風圖標或開發板K3按鍵	按住按鍵說話，松開提交
語音喚醒(單輪)	喚醒詞 “小美小美”	聽到提示音 “在呢” 后進行提問，每次提問均需要喚醒
語音喚醒(多輪)	喚醒詞 “小美小美”	聽到提示音 “在呢” 后進行提問，可持續對話，當超過20秒無語音輸入時自動結束本次交互

語音交互模式的切換

在待機頁面，下滑可調出下滑菜單，點擊下滑菜單中的設置圖標，可進行配置頁面：

選中對應的模式后，點擊左上角即可回到待機頁面并生效。

按鍵交互模式

設置成按鍵交互(按鍵喚醒)模式下，按住屏幕上的麥克風按鈕或開發板上的K3按鍵，即進入錄音狀態，松開按鍵則結束錄音并提交。

語音喚醒模式

當設置為語音喚醒(單輪)或語音喚醒(多輪)，可通過喚醒詞 —— “小美小美” 對設備進行喚醒，當聽到 “在呢” 的提示音后，即可正常進行語音輸入。

退出對話

在使用過程中，點擊左上角結束本輪對話回到待機頁面，此操作會同步清除本次對話的上下文信息。

拍照識圖

在待機頁，點擊拍照按鈕即可進入取景頁面，對準要拍照的物體，點擊右側中間的拍照鍵完成抓拍，確認畫面抓拍正常后（無晃動模糊的情況），點擊右側的 √ 進行提交識別：

文生圖

在設備進入語音交互狀態后，可以通過帶有繪畫意圖的提示詞讓大模型進行作畫，比如：

●“畫一只熊貓”

●“畫一個人正在使用電腦”

SDK資源下載

語音視覺大模型開發板 SDK：https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

DEMO固件下載：https://docs2.listenai.com/x/UzjbjIAxw

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 聆思csk6 大模型開發板 Zephyr RTOS CSK6011A

關閉