您當前位置：新聞中心>>品牌>>品牌風采>>

全力以赴答好每一道判斷題——小米公司“小愛語音喚醒專項”背后的質量故事

2022-12-21 11:27:39 中國質量報

全力以赴答好每一道判斷題

——小米公司“小愛語音喚醒專項”背后的質量故事

□ 本報記者彭燮

“小愛同學”“在”……每一天，這樣看似簡單的對話會在地球各個角落重復1億次以上。作為小米公司依托強大生態(tài)鏈條打造的智能語音交互系統(tǒng)，“小愛同學”已成為國內最“忙”的智能語音助手，是億萬用戶智能生活中不可或缺的一部分。

“在我們看來，喚醒‘小愛同學’相當于進門的‘門禁’。門禁不好用，大家想進也進不來?！毙∶准瘓F“小愛語音喚醒專項”算法產品經(jīng)理王玲玲介紹說，她所在的團隊成立于2020年，擁有來自算法、硬件、測試等多個部門數(shù)十名工程師的“豪華陣容”，大家的目標就是要讓“門禁”更好用，讓小米語音交互的用戶體驗再上一個新臺階。

判斷題一：是不是非要自己做算法

王玲玲告訴記者，如果說語音識別是關于語意和語氣的“理解題”，那么語音喚醒就是一道針對語音的“判斷題”。但是，想要答好“小愛同學”這道“4個字的判斷題”，盡可能避免“喚不醒”和“誤喚醒”，難度很大。

2020年，小米智能產品的三大端（手機、電視、音箱）都采用了頭部供應商的喚醒算法，也代表著業(yè)內的主流水平。但從用戶端反饋來看，大家對于包括小米在內的各家品牌智能產品的語音喚醒并不滿意，“喊了半天沒反應，沒喊了反倒冷不丁答應一聲”類似的用戶吐槽比比皆是。

把算法改進的任務交給供應商，還有一個潛在的悖論——出于保護用戶隱私的考慮，小米不可能把用戶數(shù)據(jù)交給第三方，但是沒有用戶數(shù)據(jù)的反饋，供應商也很難開展針對性的改進。

其實，小米早在幾年前就開始著手自研語音喚醒算法，但幾年下來成績也并不太理想，和供應商算法相比沒有明顯優(yōu)勢。一方面，喚醒詞“小愛同學”的“愛”字沒有聲母，容易連讀吞字，“同學”則屬于生活常用詞，容易造成誤喚醒；另一方面語音喚醒對底層硬件依賴度很高，技術改進需要融合傳統(tǒng)音頻降噪和深度學習算法，非常復雜。而對于用戶來說，相比語音識別，大家對于喚醒的成功預期更高，容忍度更低，這也給技術改進帶來了非常大的壓力。

以誤喚醒為例，按照小米制定的測試標準，一天24小時誤喚醒次數(shù)不多于兩次，相當于86400秒里最多允許算法出現(xiàn)4秒錯誤，對算法精度的要求可想而知。

是不是非要做自研算法？這道判斷題在項目組成員們的腦海中盤旋了很久，最終大家給出了答案——是！

據(jù)算法團隊負責人高鵬博士介紹，項目組通過給現(xiàn)有數(shù)據(jù)加混響、加噪聲、變調、調整音量等策略，將訓練數(shù)據(jù)擴充到20倍以上；采用了TDNN-F算法；通過模型結構的優(yōu)化，提升喚醒性能；通過大量實驗，提高模型學習能力，最終達到明顯的優(yōu)化效果。

為了解決“閑聊喚醒”等問題，項目組還開展了兒童喚醒、句中喚醒抑制等專項改進，從而降低誤喚醒發(fā)生幾率。

據(jù)統(tǒng)計，目前，手機、音箱、電視三大端的“小愛同學”喚醒體驗都有了明顯提升。以手機為例，喚醒投訴率降低了79%，誤喚醒率降低到了1%以下。

判斷題二：有必要每條用戶反饋都跟進嗎

用戶反饋是小米質量改進的最大遵循?？蓪τ凇靶壅Z音喚醒專項”來說，收集用戶反饋本身就挺困難。

相比誤喚醒，難喚醒（漏召）相當于機器自動判定為“否”，因此沒有本地數(shù)據(jù)，在監(jiān)測上更為困難，這也是業(yè)內公認的難題之一。

明明是用戶的痛點，又是現(xiàn)有數(shù)據(jù)的盲點，怎么辦？團隊跳出數(shù)據(jù)監(jiān)控的慣性思維，設立了喚醒PPM（每百萬用戶投訴量）指標，對小米公司所有用戶反饋渠道的相關信息進行了梳理和驗證，挖掘喚不醒相關反饋，并對其進行有針對性的分析和改進。

今年3月，米粉“YK3372”通過小米手機“用戶與反饋”提交了“行車狀態(tài)下，手機‘小愛同學’無法被喚醒”的問題，這也是小米迄今為止收到的唯一一條行車場景下喚不醒的反饋。

很快，小米語音喚醒用戶工程師任栩聯(lián)系到了“YK3372”，請他幫忙試著復現(xiàn)問題，并組織相關工程師一起討論問題出在哪里。面對大量的用戶日志，工程師進行了仔細的篩選和排查。

從懷疑麥克風收音有問題到懷疑輸入音頻有問題，經(jīng)過一天多的排查，任栩終于發(fā)現(xiàn)了問題所在——語音喚醒模塊在處理音頻時，由于聲紋識別比算法處理速度快，提前截斷了喚醒詞音頻，導致只識別了“小愛同”，因此無法喚醒。任栩還記得，深夜加班找到原因之后自己那種激動的心情，“感覺終于可以給米粉，給其他同學一個交代了”。

隨后，工程師們針對這一情況改寫了判斷策略，并升級了版本。軟件升級后，無論是開車還是其他場景，“YK3372”再也沒有遇到過類似的問題。隨叫隨到的“小愛同學”成為了他越來越離不開的生活助手。而小米則為此成立了技術攻關小組，繼續(xù)探尋聲紋識別速度異常波動的深層次原因。

對問題日志創(chuàng)新研發(fā)自動化標注，對渠道反饋內容進行一對一細化排查和深度跟蹤處理……實踐證明，這種主動找問題、挖線索的工作思路是切實有效的。從數(shù)據(jù)看，目前小米各個渠道關于語音喚醒的投訴反饋數(shù)量已經(jīng)下降60%左右。

選擇題三：有沒有必要挑戰(zhàn)極限

兩年多來，“小愛語音喚醒專項”以極大的勇氣在算法、軟件、測試、標準、硬軟件適配等多個領域進行了突破性改進，并采用先標桿后復制的聚焦打法，從旗艦單品到全面鋪開，最終實現(xiàn)了用戶體驗明顯優(yōu)化、相關投訴大幅降低的超預期成果。

2021年8月發(fā)布的小米首款高端智能音箱——Xiaomi Sound，就是小愛語音喚醒改進的“旗艦單品”之一，也是工程師們“挑戰(zhàn)極限”的里程碑之作。

這款音箱外觀設計圓潤時尚，很有特色，但從收音角度來說，“就等于你把一個人的耳朵捂得嚴嚴實實的，還要求他聽得特別清楚?！备啭i如是說。

為了確保收音質量，高鵬和團隊通過實驗室的測試數(shù)據(jù)，去反向推導改進聲音結構設計，以提升收音的質量和精準度，然后再通過實驗室去驗證改進是否達到效果。

一般來說，智能音箱的收音質量測試環(huán)節(jié)大概需要7天時間，而Xiaomi Sound音箱的收音質量測試，整整用了兩個月。這對于“跑”著出新品的小米來說，實在是很奢侈的一件事情，足以說明Xiaomi Sound音箱的研發(fā)難度之大?！斑@個特別的外觀設計，必須要匹配極致的聲音結構設計，否則就沒辦法向米粉交代，我們也只能拼了?！?/p>

Xiaomi Sound音箱采用了業(yè)內最先進的混合算力芯片，涉及4家供應商，等于每一次算法的調整，都需要經(jīng)歷4次“不同語言”的考驗。高鵬說，如果以10分為難度最高，小米以往的智能音響的芯片適配難度大概是5，而Xiaomi Sound音箱能達到9。

在保證適配的同時，高鵬還帶領團隊在算法上做了改進，將整體采樣率和精度都做到最大值，從業(yè)內普遍采用的16k采樣、16比特精度提升為48k采樣、32比特精度，以更高的精度和更好的信號質量，來保證算法數(shù)據(jù)的精準度。

星光不負趕路人。承載著小愛團隊心血和汗水的Xiaomi Sound音響一上市就廣受好評，更讓高鵬和小伙伴們驚喜的是，Xiaomi Sound音響在語音交互方面的各項指標竟然是現(xiàn)有小米智能音箱中表現(xiàn)最為突出的，達到了自研算法的最好水平，相關的用戶投訴率也是最低的。

把“不可能完成的任務”變成了“最佳表現(xiàn)”，這背后的故事令人心潮澎湃，更讓人心生敬意。正是小米工程師們的永不放棄和執(zhí)著追求，才誕生了一個個極致的產品，成就了米粉們的驕傲。

《中國質量報》

(責任編輯:水川)

我要評論：	共0條評論	查看評論
會員登錄名密碼匿名發(fā)表

在线观看精品国产大片|免费一区二区视频|亚洲аv在线观看|欧美在线激情性受

全力以赴答好每一道判斷題——小米公司“小愛語音喚醒專項”背后的質量故事