基于語音識別的微博簽到系統
LD3320介紹
1 通過快速而穩定的優化算法,完成非特定人語音識別,識別準確率95%。
2 不需要外接任何輔助的Flash芯片,RAM芯片和AD芯片,就可以完成語音識別功能。
3 每次識別最多可以設置50項候選識別句,每個識別句可以是單字,詞組或短句,長度為不超過10個漢字或者79個字節的拼音串。識別句內容還可以動態編輯修改。
4 芯片內部已經準備了16位A/D轉換器、16位D/A轉換器和功放電路,麥克風、立體聲耳機和單聲道喇叭可以很方便地和芯片管腳連接。
5 支持并行和串行接口,串行方式可以簡化與其他模塊的連接。
在本系統中采用的LD3320模塊如圖7,LD3320芯片外部已經連接了麥克風,耳機接口,基本電路,只引出了我們需要的引腳。本系統采用串行方式,串行接口通過SPI協議和外部主CPU連接,首先要將MD接高電平,將SPIS接地,選定LD3320工作在串行模式,此時使用的管腳有:片選(SCS*)、SPI時鐘(SDCK)、SPI輸入(SDI)和SPI輸出(SDO),中斷引腳(INT),復位引腳(RST),時鐘引腳(CLK),通過SPI接口,配置LD3320的工作模式,讀取識別結果,圖8,圖9為SPI讀寫時序。當LD3320識別到有語音輸入,INT引腳將產生中斷,在中斷處理函數中,讀取識別結果,改變LD3320狀態。
圖7LD3320語音模塊
圖8
圖9 SPI方式寫時序
在本系統中,OV2640輸出JPEG壓縮圖像格式。MCU與OV2640的通信采用串行與并行結合,OV2640帶有SCCB(Serial Camera Control Bus)雙線串行接口,MCU通過SCCB接口配置和讀取OV2640的信息;MCU通過并行總線的方式來接收OV2640的圖像數據。Y(2..9)為8位MSB(MostSignificant Bit,最高有效位模式)并行總線,SDIO、SCLK為SCCB接口,PCLK為像素時鐘輸出管腳(每個周期從并行總線上輸出一個像素),VSYNC為列同步輸出管腳(每幀圖像發生一次跳變),HERF為行參考輸出管腳(每個周期總線從并行總線上輸出一行圖像數據)。系統的硬件電路連接簡圖如圖10。
圖10系統硬件電路連接簡圖
系統上電后,MCU配置OV2640的工作方式,初始化LD3320,然后檢查LD3320的狀態,當LD3320的狀態是“找到識別結果”,開啟OV2640中斷,在OV2640準備好圖像后,VSYNC會被拉高一段時間,MCU通過PCLK上升沿中斷按字節接收圖像數據,接收數據完成,關閉OV2640中斷。然后向新浪微博發送已經寫進程序里的自己想說的話和接收到的圖片。接下來將對主要的程序塊做介紹。
程序介紹
在《為你的設備添加社交網絡功能》中,已經詳細介紹了OV2640的初始化配置程序,本篇文章就不再贅述,圖像數據緩存程序與本文稍有不同,這里簡單介紹圖像數據緩存程序。本文對LD3320的寫入詞條列表,啟動語音識別,中斷處理程序,發送微博程序做主要介紹。
圖像數據緩存程序(摘至stm32f10x_it.c):
void EXTI0_IRQHandler(void)
{
u8 temp;
EXTI_ClearITPendingBit(EXTI_Line0);
switch(jpg_flag)
case 0:
JPEGBuffer[0]=0xff;
jpg_flag=1;
break;
case 1:
if(temp==0xd8)
JPEGBuffer[1]=0xd8;
jpg_flag=2;
JPEGCnt=2;
else if(temp!=0xff)
jpg_flag=0;
break;
case 2:
JPEGBuffer[JPEGCnt++] =temp;
if(temp==0xff)jpg_flag=3;
break;
case 3:
JPEGBuffer[JPEGCnt++]=temp;
if(temp==0xd9)
jpg_flag=4;
else if(temp!=0xff)
jpg_flag=2;
break;
case 4:
break;
}
在中斷函數中通過以上程序即可正確讀取每一幀圖像的數據了。程序思想已經在拍攝照片流程圖中體現。JPEGBuffer為一個全局的圖像緩存區,在主函數中,檢測到緩存區數據準備完畢后,就可以將圖像發送給新浪微博了。
LD3320添加詞條程序(摘至LD3320_main.c)
uint8 LD_AsrAddFixed(void)
{
uint8 k, flag;
uint8nAsrAddLength;
#define DATE_A
#define DATE_B
uint8
flag = 1;
for (k=0; k
{
if(LD_Check_ASRBusyFlag_b2() == 0)
LD_WriteReg(0xc1, pCode[k] );
LD_WriteReg(0xc3, 0 );
LD_WriteReg(0x08, 0x04);
LD3320_delay(1);
LD_WriteReg(0x08, 0x00);
LD3320_delay(1);
for (nAsrAddLength=0; nAsrAddLength
{
if (sRecog[k][nAsrAddLength] == 0)
break;
LD_WriteReg(0x5, sRecog[k][nAsrAddLength]);
}
LD_WriteReg(0xb9, nAsrAddLength);
LD_WriteReg(0xb2, 0xff);
LD_WriteReg(0x37, 0x04);
LD_WriteReg(0x37, 0x04);
}
return flag;
}
列表的規則是,每個識別條目對應一個特定的編號(1個字節),不同的識別條目的編號可以相同,而且不用連續。本芯片最多支持50個識別條目,每個識別條目是標準普通話的漢語拼音(小寫),每2個字(漢語拼音)之間用一個空格間隔。首先把識別條目的編號寫入0xc1寄存器,其次,將字符串中的字符按順序寫入寄存器0x05,然后將字符串長度寫入寄存器0xB9,向寄存器0xB2寫入0xFF,向寄存器0x37寫入0x04,通知DSP要添加一項識別句。
LD3320啟動語音識別程序(摘至LD3320_main.c)
uint8 LD_AsrRun(void)
{
1
2
3
4
5
6
7
8
LD_WriteReg(0x29, 0x10); //
LD_WriteReg(0xBD, 0x00);
}
第1行,ADC增益設置,或可以理解為麥克風(MIC)音量。可以設置為00H-7FH。建議設置值為40H-55H:值越大代表MIC音量越大,識別啟動越敏感,但可能帶來更多誤識別;值越小代表MIC音量越小,需要近距離說話才能啟動識別功能,好處是對遠處的干擾語音沒有反應。第6行檢查LD3320是否為空閑狀態,如果為空閑狀態,在第7行向0x37寄存器寫入0x06,通知DSP開始語音識別。第8行,向寄存器0x1c寫入0x0b,表示麥克風輸入ADC通道可用。
LD3320中斷處理程序(摘至LDChip.c)
voidProcessInt0(void)
{
uint8nAsrResCount=0;
1
2
3
4
5
6
nAsrStatus=LD_ASR_FOUNDOK;
else
7nAsrStatus=LD_ASR_FOUNDZERO;
}
else
{
8
}
LD_WriteReg(0x2b,0);
LD_WriteReg(0x1C,0);
LD_WriteReg(0x29,0);
LD_WriteReg(0x02,0);
LD_WriteReg(0x2B,0);
LD_WriteReg(0xBA,0);
LD_WriteReg(0xBC,0);
LD_WriteReg(0x08,1);
LD_WriteReg(0x08,0);
}
中斷處理函數的第1行讀取中斷請求編號寄存器0x2B的值,第4位:讀取值為1表示語音識別有結果產生;MCU可清零。第2位:讀取值為1表示芯片內部FIFO中斷發生。MP3播放時會產生中斷標志請求外部MCU向FIFO_DATA中Reload數據。第3位:讀取值為1表示芯片內部已經出現錯誤。值得注意的是:如果在中斷響應時讀到這位為1,需要對芯片進行重啟Reset,才可以繼續工作。第2,3行關閉LD3320的中斷。第4行,讀取中斷請求編號寄存器0x2B的值,當第4位讀取值為1表示語音識別有結果產生,其次讀取語音識別過程中DSP忙閑狀態寄存器0xb2,讀取到0x21
發送微博程序(摘至weibo.c)
unsigned char post_weibo_upload(char* weibo, uint8* pic,uint32 picLen)
{
unsigned char ret=0;
unsignedintlen=0;
1
printf("Socket initialization failed.");
return 0;
else
printf("Connect with Weibo server.");
2
if(ret!=1)
printf("Connect Weibo server failed.");
return 0;
else
3while(getSn_SR(SOCK_WEIBO)!=SOCK_ESTABLISHED);
printf("Connected with Weiboserver.");
4
"--%sContent-Disposition:form-data; name="pw"%s"
"--%sContent-Disposition:form-data; name="cmd"upload"
"--%sContent-Disposition:form-data; name="status"%s"
"--%sContent-Disposition:form-data; name="file"; filename="pic.jpg"Content-Type:application/octet-stream",(char*)BOUNDARY,(char*)WEIBO_ID,(char*)BOUNDARY,(char*)WEIBO_PWD,(char*)BOUNDARY,(char*)BOUNDARY,weibo,(char*)BOUNDARY);//"--%s--"
5
6
while(file_len)
if(file_len>PACKET_LEN)
if(getSn_SR(SOCK_WEIBO)!=SOCK_ESTABLISHED)
return 0;
7send(SOCK_WEIBO, (uint8*)(pic+send_len), PACKET_LEN);
send_len+=PACKET_LEN;
file_len-=PACKET_LEN;
else
8send(SOCK_WEIBO, (uint8*)(pic+send_len), file_len);// uploadpicture
send_len+=file_len;
file_len-=file_len;
sprintf(tmp_buf,"--%s--",(char*)BOUNDARY);
send(SOCK_WEIBO,(unsigned char*)tmp_buf,strlen(tmp_buf));
while(1)
9len=getSn_RX_RSR(SOCK_WEIBO);
if(len>0)
memset(tmp_buf,0x00,MAX_BUF_SIZE);
10len=recv(SOCK_WEIBO,(unsigned char*)tmp_buf, len);
11char*p=strstr(tmp_buf,(char*)"")+4;
disconnect(SOCK_WEIBO);
close(SOCK_WEIBO);
return 1;
}
發送微博函數的第1行,初始化一個socket,第2行,對服務器發出連接請求,第3行一直等待連接的建立。與服務器建立連接后,第4,5行負責組建帶有微博內容和圖片長度的HTTP數據包,第6行負責發送微博內容,第7,8行發送圖片數據。第9行是讀取W5500接收到的數據長度,第10行從W5500的接收緩存中把接收到的數據讀到tmp_buf中。由于接收到的數據包含了HTTP頭,第11行是把HTTP頭去掉,得到服務器的返回結果。服務器返回結果的類型請參看《為你的設備添加社交網絡功能》一文。
好了,代碼就這么多,趕快編譯燒到單片機里面吧,上電,對著麥克風說出一句已經寫到LD3320里的話,當對應的指示燈亮或者閃爍,說明已經識別成功,然后對著攝像頭微笑吧,這時攝像頭為我們拍張照片,上傳微博,然后看串口調試信息,如果收到“255:ok”,那就成功了,登錄到微博看看,寫進程序里的話以及自己的照片出現在微博上面。如圖11。
圖11系統發送微博效果圖
至此,我們的基于語音識別的微博簽到系統已經大功告成,你心動了嗎?趕快制作你自己的微博簽到系統吧。
評論