全力以赴答好每一道判斷題
——小米公司“小愛語音喚醒專項”背后的質量故事
□ 本報記者 彭 燮
“小愛同學”“在”……每一天,這樣看似簡單的對話會在地球各個角落重復1億次以上。作為小米公司依托強大生態(tài)鏈條打造的智能語音交互系統(tǒng),“小愛同學”已成為國內最“忙”的智能語音助手,是億萬用戶智能生活中不可或缺的一部分。
“在我們看來,喚醒‘小愛同學’相當于進門的‘門禁’。門禁不好用,大家想進也進不來?!毙∶准瘓F“小愛語音喚醒專項”算法產品經(jīng)理王玲玲介紹說,她所在的團隊成立于2020年,擁有來自算法、硬件、測試等多個部門數(shù)十名工程師的“豪華陣容”,大家的目標就是要讓“門禁”更好用,讓小米語音交互的用戶體驗再上一個新臺階。
判斷題一:是不是非要自己做算法
王玲玲告訴記者,如果說語音識別是關于語意和語氣的“理解題”,那么語音喚醒就是一道針對語音的“判斷題”。但是,想要答好“小愛同學”這道“4個字的判斷題”,盡可能避免“喚不醒”和“誤喚醒”,難度很大。
2020年,小米智能產品的三大端(手機、電視、音箱)都采用了頭部供應商的喚醒算法,也代表著業(yè)內的主流水平。但從用戶端反饋來看,大家對于包括小米在內的各家品牌智能產品的語音喚醒并不滿意,“喊了半天沒反應,沒喊了反倒冷不丁答應一聲”類似的用戶吐槽比比皆是。
把算法改進的任務交給供應商,還有一個潛在的悖論——出于保護用戶隱私的考慮,小米不可能把用戶數(shù)據(jù)交給第三方,但是沒有用戶數(shù)據(jù)的反饋,供應商也很難開展針對性的改進。
其實,小米早在幾年前就開始著手自研語音喚醒算法,但幾年下來成績也并不太理想,和供應商算法相比沒有明顯優(yōu)勢。一方面,喚醒詞“小愛同學”的“愛”字沒有聲母,容易連讀吞字,“同學”則屬于生活常用詞,容易造成誤喚醒;另一方面語音喚醒對底層硬件依賴度很高,技術改進需要融合傳統(tǒng)音頻降噪和深度學習算法,非常復雜。而對于用戶來說,相比語音識別,大家對于喚醒的成功預期更高,容忍度更低,這也給技術改進帶來了非常大的壓力。
以誤喚醒為例,按照小米制定的測試標準,一天24小時誤喚醒次數(shù)不多于兩次,相當于86400秒里最多允許算法出現(xiàn)4秒錯誤,對算法精度的要求可想而知。
是不是非要做自研算法?這道判斷題在項目組成員們的腦海中盤旋了很久,最終大家給出了答案——是!
據(jù)算法團隊負責人高鵬博士介紹,項目組通過給現(xiàn)有數(shù)據(jù)加混響、加噪聲、變調、調整音量等策略,將訓練數(shù)據(jù)擴充到20倍以上;采用了TDNN-F算法;通過模型結構的優(yōu)化,提升喚醒性能;通過大量實驗,提高模型學習能力,最終達到明顯的優(yōu)化效果。
為了解決“閑聊喚醒”等問題,項目組還開展了兒童喚醒、句中喚醒抑制等專項改進,從而降低誤喚醒發(fā)生幾率。
據(jù)統(tǒng)計, 目前,手機、音箱、電視三大端的“小愛同學”喚醒體驗都有了明顯提升。以手機為例,喚醒投訴率降低了79%,誤喚醒率降低到了1%以下。
判斷題二:有必要每條用戶反饋都跟進嗎
用戶反饋是小米質量改進的最大遵循??蓪τ凇靶壅Z音喚醒專項”來說,收集用戶反饋本身就挺困難。
相比誤喚醒,難喚醒(漏召)相當于機器自動判定為“否”,因此沒有本地數(shù)據(jù),在監(jiān)測上更為困難,這也是業(yè)內公認的難題之一。
明明是用戶的痛點,又是現(xiàn)有數(shù)據(jù)的盲點,怎么辦?團隊跳出數(shù)據(jù)監(jiān)控的慣性思維,設立了喚醒PPM(每百萬用戶投訴量)指標,對小米公司所有用戶反饋渠道的相關信息進行了梳理和驗證,挖掘喚不醒相關反饋,并對其進行有針對性的分析和改進。
今年3月,米粉“YK3372”通過小米手機“用戶與反饋”提交了“行車狀態(tài)下,手機‘小愛同學’無法被喚醒”的問題,這也是小米迄今為止收到的唯一一條行車場景下喚不醒的反饋。
很快,小米語音喚醒用戶工程師任栩聯(lián)系到了“YK3372”,請他幫忙試著復現(xiàn)問題,并組織相關工程師一起討論問題出在哪里。面對大量的用戶日志,工程師進行了仔細的篩選和排查。
從懷疑麥克風收音有問題到懷疑輸入音頻有問題,經(jīng)過一天多的排查,任栩終于發(fā)現(xiàn)了問題所在——語音喚醒模塊在處理音頻時,由于聲紋識別比算法處理速度快,提前截斷了喚醒詞音頻,導致只識別了“小愛同”,因此無法喚醒。任栩還記得,深夜加班找到原因之后自己那種激動的心情,“感覺終于可以給米粉,給其他同學一個交代了”。
隨后,工程師們針對這一情況改寫了判斷策略,并升級了版本。軟件升級后,無論是開車還是其他場景,“YK3372”再也沒有遇到過類似的問題。隨叫隨到的“小愛同學”成為了他越來越離不開的生活助手。而小米則為此成立了技術攻關小組,繼續(xù)探尋聲紋識別速度異常波動的深層次原因。
對問題日志創(chuàng)新研發(fā)自動化標注,對渠道反饋內容進行一對一細化排查和深度跟蹤處理……實踐證明,這種主動找問題、挖線索的工作思路是切實有效的。從數(shù)據(jù)看,目前小米各個渠道關于語音喚醒的投訴反饋數(shù)量已經(jīng)下降60%左右。
選擇題三:有沒有必要挑戰(zhàn)極限
兩年多來,“小愛語音喚醒專項”以極大的勇氣在算法、軟件、測試、標準、硬軟件適配等多個領域進行了突破性改進,并采用先標桿后復制的聚焦打法,從旗艦單品到全面鋪開,最終實現(xiàn)了用戶體驗明顯優(yōu)化、相關投訴大幅降低的超預期成果。
2021年8月發(fā)布的小米首款高端智能音箱——Xiaomi Sound,就是小愛語音喚醒改進的“旗艦單品”之一,也是工程師們“挑戰(zhàn)極限”的里程碑之作。
這款音箱外觀設計圓潤時尚,很有特色,但從收音角度來說,“就等于你把一個人的耳朵捂得嚴嚴實實的,還要求他聽得特別清楚?!备啭i如是說。
為了確保收音質量,高鵬和團隊通過實驗室的測試數(shù)據(jù),去反向推導改進聲音結構設計,以提升收音的質量和精準度,然后再通過實驗室去驗證改進是否達到效果。
一般來說,智能音箱的收音質量測試環(huán)節(jié)大概需要7天時間,而Xiaomi Sound音箱的收音質量測試,整整用了兩個月。這對于“跑”著出新品的小米來說,實在是很奢侈的一件事情,足以說明Xiaomi Sound音箱的研發(fā)難度之大?!斑@個特別的外觀設計,必須要匹配極致的聲音結構設計,否則就沒辦法向米粉交代,我們也只能拼了?!?/p>
Xiaomi Sound音箱采用了業(yè)內最先進的混合算力芯片,涉及4家供應商,等于每一次算法的調整,都需要經(jīng)歷4次“不同語言”的考驗。高鵬說,如果以10分為難度最高,小米以往的智能音響的芯片適配難度大概是5,而Xiaomi Sound音箱能達到9。
在保證適配的同時,高鵬還帶領團隊在算法上做了改進,將整體采樣率和精度都做到最大值,從業(yè)內普遍采用的16k采樣、16比特精度提升為48k采樣、32比特精度,以更高的精度和更好的信號質量,來保證算法數(shù)據(jù)的精準度。
星光不負趕路人。承載著小愛團隊心血和汗水的Xiaomi Sound音響一上市就廣受好評,更讓高鵬和小伙伴們驚喜的是,Xiaomi Sound音響在語音交互方面的各項指標竟然是現(xiàn)有小米智能音箱中表現(xiàn)最為突出的,達到了自研算法的最好水平,相關的用戶投訴率也是最低的。
把“不可能完成的任務”變成了“最佳表現(xiàn)”,這背后的故事令人心潮澎湃,更讓人心生敬意。正是小米工程師們的永不放棄和執(zhí)著追求,才誕生了一個個極致的產品,成就了米粉們的驕傲。
《中國質量報》