AI手語主播通過朱廣權魔鬼面試,殘影級手速無懼貫口,今已正式上崗助力冰雪盛會
本文經ai新媒體量子位(公眾號 id:qbitai)授權轉載,轉載請聯系出處
什么樣的手語主播能跟朱廣權battle得有來有回?
話不多說,咱直接板凳瓜子備齊,一起前排圍觀:
只見朱廣權語速起飛,妙語連珠,頻出“魔鬼”面試題,但這位手語老師完全沒在怕的:
如此表現,不僅面試官朱廣權連連夸贊“精彩”,網友們也紛紛點贊。
沒錯,這位手語主播并非真人,而是一名來自百度智能云的虛擬數字人。
現在,她已正式上崗冰雪盛會,將在各類冰雪賽事中,為2780萬聽障人士提供24小時不間斷的手語服務。
雖然是初次上崗,但這位AI手語數字人的專業度不容小覷。
根據測評,其手語可懂度能達到85%以上,與主流的中英、中日機器翻譯結果相差無幾。
畢竟,“臺上一分鐘,臺下十年功”,為了給聽障人士們奉上這精彩的瞬間,AI手語數字人背后的程序員們,已經下了不少苦工。
手語數字人背后的技術挑戰
在聊技術之前,或許你會好奇這樣一個問題,明明有字幕,為啥體育賽事等電視節目還需要手語解說?
實際上,由于種種現實因素的制約,比起文字,手語對聽障人士而言更加親切,也能更快速地傳遞信息。
因此,屏幕一角的手語翻譯,對于特殊人群而言其實是一個“更加平等享受資訊”的窗口。
這也就給AI手語數字人提出了一個本質的技術問題:如何讓聽障人士能真正看懂數字人打出的手語?
乍一看,這就是個從語音到文本,從文本到手語符號,再到手語數字人動作的一個翻譯流程,但深究其背后的技術細節,就會發現需要克服的難點要比表面看上去復雜得多。
首先,語音轉手語,并不是簡單地構建一個語音到視覺的轉換模型就行。
單就語序而言,手語和自然語言之間就存在較大的差異。舉個例子,“我想回家”這樣一句話,用手語打出來的順序其實是“家 回 我想”。
并且,手語還有語言精簡的特性,手語的描述會對口語進行精簡。
也就是說,如果只是生硬地把口語中的詞匯轉換成手勢,再把動作簡單地連接起來,這樣打出的手語只能說是“半吊子手語”,聽障人士很難看懂。
其次,表情神態同樣是手語表達中極為重要的部分。
有時一個手勢代表好幾個意思,如果沒有表情和口型的配合,就可能產生誤解。
除此之外,還要考慮數據匱乏、數字人動作靈活度欠缺等種種問題。
總而言之,想要打造一個高質量手語數字人,既需要語音、視覺、自然語言處理等AI技術同時發力,也少不了對于聽障人士真實需求的深入調研。
所以,這一次百度智能云的程序員們是如何成功讓AI手語主播具備助力冰雪盛會的實力的?
2個月,“做難而正確的事”
研發團隊接到手語數字人任務時,距離萬眾期待的冰雪盛會已僅剩不到2個月的時間。
但就是在這種幾乎沒有時間試錯的情況下,程序員們卻放棄了現成的手勢漢語語料。
正如前文所言,漢語到手勢的簡單轉換在很多情況下會讓聽障觀眾產生理解歧義,實際效果其實是大打折扣的。
為了“治本”,盡管面臨數據需要從頭采集標注、額外增加的成本難以預估的壓力,百度智能云團隊還是果斷選擇了自然手語語料:
做就做難而正確的事。
為此,百度智能云團隊聯合天津理工大學,組織了上百位聽障學生做語料的數據標注,同時邀請手語語言學專家、特殊教育專家等專業人士,將大量行業知識融合到模型效果和聽障人群的體驗當中。
打下了高質量的基礎,接下來,就是一步步解決手語數字人“聽得清”、“會翻譯”、“會表達”三個問題。
“聽得清”,要靠語音識別模型。
ASR語音識別方面,在NLP、語音領域有著逾10年積累的百度本身已具備成熟的解決方案,識別準確率能達到98%以上,還能hold住中英文混雜、生僻字、方言等特殊場景。
“會翻譯”,用上的就是手語翻譯模型。
與一般的語言翻譯模型不同,由于前文提到的手語表達中語言精簡等特性,手語翻譯模型需要著重考慮精準度和精簡度。
其中精準度影響到數字人手勢的精準,而精簡度會影響傳遞信息的及時性。
在高質量數據資源和百度多年積累的神經網絡翻譯技術的基礎上,研發團隊設計了從中文文本到手語符號的翻譯方法。
通過大規模知識學習、中間件控制等手段,研發團隊成功在保障翻譯準確率的情況下縮減了譯文長度,實現了翻譯效果和時延的平衡。
2個月的時間里,經過6次大的版本迭代,這一手語翻譯模型可懂度最終達到了85%以上,媲美主流的中英、中日等方向的機器翻譯結果,達到了業界領先水平。
最后,數字人的表達靠的是動作生成模型,包括手勢、口型、表情的生成。
針對手勢問題,研發團隊運用人體動作視覺識別技術,讓AI學習手語視頻,將其中的二維骨骼點轉化為驅動三維數字人的手語動作,并且能夠精確到每一根手指。
基于此,百度智能云已經建立起擁有近1萬個手語動作的強大動作庫。
而在口型和表情方面,研發團隊運用首創的4D掃描數據進行訓練,對表情和口型進行精準校正,通過超10萬個全身多邊形面、超1萬個臉部面、超240個面部表情行變基、超100個身體骨骼界限,賦予了手語數字人自然生動的表情。
wink、吹泡泡都不在話下:
總體上,口型生成的準確度能夠超過98.5%。
“降低成本是虛擬數字人發展的關鍵”
說到這里,想必你也看出來了,百度智能云的程序員們能夠大膽挑戰更有難度的技術路線,與百度本身長期積累的AI技術、數字人技術不無關系。
實際上,在數字人的生產上,百度已經把上述人像驅動技術、智能對話技術、語音交互技術,以及智能推薦技術匯總到了其平臺級產品——百度智能云曦靈平臺上。百度智能云曦靈集數字人生產、內容創作、業務配置服務為一體,無論是虛擬員工這樣的服務型數字人,還是虛擬主持人、虛擬偶像這樣的演藝型數字人,都能基于該平臺一站式打造,甚至是“一句話生成”。
此前與馬斯克媽媽梅耶·馬斯克對話的百度集團數字人“希加加”:
能夠彈琴獻唱的“龔俊數字人”:
就都是基于百度智能云曦靈打造。
目前,百度智能云曦靈平臺已經推出了3D寫實、2D寫實、3D卡通三條生產線,實現了****/保險、運營商、媒體/廣電、互娛/品牌商、MCN/藝人經紀等全場景覆蓋,一站式打造“能聽、能說、能理解、可互動”的數字人。
這就大大加速了一個數字人從設計到落地的流程,有效降低了數字人生產的成本,為數字人的規模化應用打下了基礎。
百度集團副總裁吳甜在參加央視《對話》節目錄制時還談到這樣的觀點:
降低成本是虛擬數字人發展的關鍵之一。百度希望通過領先的全棧AI能力,把虛擬人的生產周期縮短到小時級別,降低生產成本,并驅動生成內容。
科技讓世界更公平
嚴格說起來,數字人并不算是全新的事物。
在過去幾年中,隨著AI等技術的成熟,以及短視頻、直播等新興媒介需求的涌現,數字人正不斷涌現出新的面貌和新的應用模式。
而從被提出到今天的廣泛落地,“數字人”這一科技熱詞,其實也已經歷了好幾個認知階段。
第一階段,大家探討的重點是數字人“真不真”,這是新技術之初見。
當技術落地的嘗試開始展開,第二階段圍繞“危機感”的討論便隨之而來:人們開始關注數字人是否會侵占掉人類的工作機會。
現在,或許我們對數字人的認知,又到了進入新階段的時候。
正如AI手語數字人讓冰雪賽事的魅力觸達到了更多人群,越來越多的落地案例正在說明,數字人作為一種提升服務效率的方式,并非在“替代”人類工作,而是在填補人力所不能及的空白。
這也正是科技背后真正的價值——并非取而代之,而是幫助人、做人所不能之事。而當百度這樣的科技企業,致力于降低技術的成本、加速技術的落地,體現出的亦正是科技工作者的社會責任擔當。
從這個角度來講,前沿技術儼然不再冰冷和遙遠,而是真正在讓人類共同體變得更加公平和美好。
你覺得呢?
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
電子負載相關文章:電子負載原理