智權新知
首頁 > 智權新知
在物聯網裝置不斷推陳出新的同時,語音智慧助理是不能被忽視的一個重要角色。以智慧家居為例,當玄關、客廳、臥室以及廚房等都佈滿智慧裝置時,一個類似電影鋼鐵人中Jarvis的智慧助理就能讓你更輕鬆地操控各式家電以及完成叫pizza、網購等語音消費行為。但當Siri或Alexa不再只是回答天氣、時間或各式無害的蠢問題,而是執行理應需要先行授權的指令時,有什麼方法可以在越來越複雜的使用情境下,避免家中兒童不經意地訂購了一卡車的玩具?或是防止有心人士用錄音重播的方式啟動你的智慧助理呢?以下將介紹Apple與Google針對語音助理的相關技術以及其專利分析。
在進入接續段落前要先說明的是,本文中強調的操作情境是「動口不動手」,也就是說僅用語音作為啟動以及命令的媒介,優先排除了例如手動輸入密碼等既有的認證方式。
定價129美元的Google的語音助理Google Home具有圓潤的外型,在其官網的介紹影片[1]中,以多元成家的二位爸爸分別向同一個Google Home查詢自己的行事曆來展示支援辨識多使用者的功能。然而現有的聲紋辨識技術應已能辨識不同人的聲音,所以Google申請的US 14/943287這篇專利的技術主體並不是多使用者之辨識,而是有關如何防止未授權者利用例如錄音等方式記錄下裝置擁有者用於裝置解鎖,或是取得授權的熱詞(hotword)後,將聲音重播來通過語音驗證,Google將這行為稱作重播攻擊(replay attack)。
圖1展示了從系統100偵測到使用者的發聲(utterance; 此處範例為“Ok Computer”) 110後,聲音子系統120接收聲音並處理後丟給熱詞偵測器130,若確定發聲有對應到熱詞則繼續傳遞給聲紋產生器140,接著重播攻擊引擎150會比對產生的聲紋以及熱詞聲紋資料庫中的資料,如果比對結果是相符合的(match),則鎖住裝置或是維持鎖住狀態,若不相符合則允許執行查詢或指令。
看到這裡可能會覺得奇怪,怎麼會比對符合反而被鎖住呢?主要是因為此技術是比對熱詞的聲紋,而非發聲的聲紋,其判斷邏輯是經比對後如果出現符合的熱詞聲紋則可能就是重播攻擊。
在說明書中有提到其比對方式是經過近似度等分析後,重播攻擊引擎150會產生一個近似度分數(similarity score),再確定該近似度分數是否滿足預先決定的門檻分數(predetermined threshold score)。而這近似度分數或是門檻分數會隨著熱詞後接續之指令的敏感度而有所調整,舉例來說,詢問行事曆因為涉及個人或是私人資料,所以該指令的敏感度會高於例如詢問天氣,進而降低重播攻擊成功的機率。另外如果藉由環境背景聲判斷熱詞聲紋是在公眾場所或非於信任場所(例如家中)產生的,則該熱詞聲紋會被認為可能是重播攻擊。
在圖2中,“Call Mom”是接續於熱詞“Ok Computer”的指令,所以在方塊214比對的是熱詞與指令是否來自同一使用者,符合的話則執行查詢或指令,這就與前述的重播攻擊比對不同(方塊205)。此外,雖然說明書中並未明確記載,但在多重使用者之辨識的步驟應該是在重播攻擊比對時進行。
Google這篇美國專利在2017年5月1號獲證,在審查過程中,審委並未發出新穎性或非顯而易見性的核駁,而是以相當長的篇幅說明原始claims不符合專利適格性,其中包括請求項(1)指向非法定標的(non-statutory subject matter)以及(2)指向司法例外且沒有顯著超過,而第二點也就是近幾年令申請人頭痛的Alice rejection。由於本案申請人在收到Office Action後與審委進行了電話面詢,推測其答辯意見多已於電詢中說明,所以在其遞交的答覆理由中並無太多關於其如何克服專利適格性的資料,故此處僅從其修改的請求項(圖3)推測,在修改的內容中,“despite determining that the audio data corresponds to the hotword”是關鍵,其意義就是告訴審委此案的replay attack的特徵是基於現有聲紋符合即可開鎖的技術下所附加的限制條件,且其帶有進步效果,至少在Alice test的Step 2的“in combination”時是顯著超過抽象概念的。
資料來源:https://udn.com/news/story/6871/2470664