在我們的日常生活中,聲音無處不在。
從清晨的鳥鳴到夜晚的蟲叫,從朋友的問候到陌生人的搭訕,聲音是我們與世界溝通的重要方式。
聲音也可以成為識別一個人的獨特標識,這是什么原理呢?今天就來科普一下“聲紋識別”。

一、人類聲紋的獨特性
聲紋是聲波的頻譜特征圖譜,就像指紋、虹膜一樣,由先天生理結構與后天發聲習慣共同塑造:
聲帶的厚度、長度決定了基礎音高,
咽喉、鼻腔的共鳴腔形狀影響音色,
甚至呼吸節奏、說話時的肌肉緊張度,都會在聲音中留下獨特印記。
這些特征組合形成的聲紋,讓每個人的聲音都具備穩定性和唯一性,這正是聲紋識別技術的核心前提。


圖片來源于網絡
不同聲音的特殊性,除了發聲源的唯一性以外,還有人們聽覺感知的差異。
聽覺系統(耳、腦、骨傳導)對不同頻率聲音的感知存在個體差異(比如有人對高頻更敏感、有人對低頻更敏銳)。
再結合大腦對語音特征的主觀解碼偏好,進一步強化了同一聲音在不同人耳中呈現的聲紋感知差異,最終讓聲音成為兼具生理唯一性與感知獨特性的身份標識。
那么,機器如何通過聲音識別身份呢?

圖片來源于網絡
二、機器聲紋識別
首先通過麥克風采集語音信號,但原始聲音會夾雜環境噪音、生理干擾以及無效間隙,這些雜質會嚴重干擾后續特征提取的準確性。
因此,第一步必須進行多維度預處理,通過針對性技術剔除干擾,讓聲紋顯出原形。
常用預處理方法有四種。
1、噪聲抑制
核心方法包括自適應噪聲抵消(Adaptive Noise Cancellation,ANC)和譜減法。
ANC通過雙麥克風采集:
一個采集語音+噪聲,
一個專門采集環境噪聲,
利用算法實時生成“反向聲波”抵消雜音;
譜減法則先分析信號頻譜,識別出噪聲的頻率分布,再從原始信號中減去噪聲頻譜。
通過噪聲抑制,可將信噪比(SNR)提升,能讓語音清晰度提升80%以上,避免噪聲“掩蓋”真實聲紋特征。

2、預加重
人類發聲時,聲帶振動的諧波、清輔音的湍流摩擦聲會形成與聲道生理結構和發音習慣密切相關的高頻成分,這類成分雖因空氣吸收、設備限制等發生顯著自然衰減,卻是聲紋識別的關鍵。
空氣傳播聲音隨距離和頻率的衰減曲線如下圖所示:

圖片來源于 Brüel & Kj?r 2001
相對于區分度低的低頻語義相關成分,高頻段的共振峰偏移、頻譜紋理等細節具有極強個體特異性,其衰減會直接降低聲紋特征維度與識別精度。
在預處理中,可以通過高通濾波器放大高頻信號,補償頻譜衰減。
通過預加重,可以讓聲紋的高頻辨識度提升。

圖片來源于網絡
3、端點檢測
可以采用短時能量與過零率雙閾值法:
短時能量判斷信號“有沒有聲音”(語音段能量遠高于靜音段),
過零率(Zero Crossing Rate, ZCR)判斷“是不是語音”(噪聲的過零率通常更雜亂)。
過零率與時域信號對比示意圖如下所示:

圖片來源于網絡
通過設定上下閾值,自動裁剪掉開頭的呼吸聲、中間的長停頓、結尾的尾音拖曳。
通過該處理,可以將無效信號壓縮,只保留核心發聲段,減少后續處理的算力消耗。
4、歸一化
不同人說話音量不同,并且與麥克風距離有差異,會導致信號幅值波動。
通過均值歸一化或者峰值歸一化,將所有語音信號的幅值統一映射到[-1,1]區間,同時消除直流偏移,讓輕聲和大聲的同一人聲紋特征保持一致,避免因音量差異導致的識別誤判。
經過這一系列預處理,原始語音信號會從夾雜雜音的模糊音頻,變成純凈、規整、細節突出的核心聲紋信號,為后續特征提取打下堅實基礎。

圖片來源于網絡
三、特征提取
聲紋識別技術的關鍵在于特征提取,即從采集到的語音信號中提取出對說話人具有強區分性和高穩定性的聲學或語言特征。
這些特征不僅包括與發音器官解剖學結構直接相關的聲學物理特性,還涵蓋了受個人習慣、情緒狀態、社會環境等因素影響的特征。
聲紋特征可以分為三類。
1、基礎特征
基礎特征直接關聯人體發聲器官的物理結構,是聲紋最穩定的“先天標識”。
基音頻率(Pitch,常記為F0):即聲帶振動的基礎頻率,決定聲音的高低。
男性聲帶厚長,基音頻率通常在80-200Hz;
女性聲帶薄短,頻率多在200-450Hz。


圖片來源于網絡
即便同性別,聲帶彈性、緊張度的差異也會讓基音呈現獨特分布,比如有人說話時基音穩定在120Hz,有人則在110-130Hz間輕微波動。可以通過線性預測編碼法(Linear Predictive Coding,LPC)進行預測。
LPC是一種通過過去采樣值線性組合預測當前語音信號的參數化分析技術,核心是求解最優預測系數以提取聲道特征;
LPC法估計基音頻率的核心思路是:先通過LPC分析對語音信號進行逆濾波,得到預測殘差信號,再從殘差信號中提取周期性特征,進而估計基音頻率。該方法可有效抑制聲道共振干擾,提升基音檢測的準確性。
Pitch,即基音頻率,是濁音由聲帶周期性振動產生的核心特征,是基音周期的倒數,反映語音音調高低。
通過LPC法提取基音頻率結果如下圖所示:

與之對應的時域波形如下圖所示:

頻譜包絡:
指聲音頻譜的整體輪廓,由咽喉、口腔、鼻腔等共鳴腔的形狀決定,是音色的核心載體。
就像不同樂器演奏同一音符時音色迥異,人類發聲時,共鳴腔的開合狀態會過濾不同頻率的聲波,形成獨特的頻譜峰值分布,即共振峰。
比如有人音色渾厚,就會導致低頻共振峰突出,有人音色清亮,則高頻共振峰明顯。
這些基礎特征能夠快速區分性別、年齡等大類差異,為后續精準識別縮小范圍,是聲紋識別的入門。
2、高階特征
梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)是聲紋識別中最經典、最有效的核心特征,核心優勢是模擬人耳聽覺特性,精準捕捉細微差異,被譽為人工設計特征的巔峰。
人類聽覺系統對不同頻率聲音的感知響度特性(等響度曲線)如下圖所示:

圖片來源于網絡
MFCC提取流程如下:
(1)分幀加窗:
語音信號是時變非平穩信號,但短時間內(20-30ms)可近似為平穩信號,因此先進行分幀處理:
如將預處理后的連續語音信號,按幀長N=25ms、幀移M=10ms分割。
同時,為避免幀邊緣信號的突變失真,給每幀信號加窗,比如:漢明窗(Hamming Window),窗函數公式為:

幀邊緣的采樣點被加權衰減,中間部分保持相對穩定,有效減少頻譜泄漏。
(2)頻域轉換:
分幀后的信號仍處于時域,無法直接體現頻率分布,需通過傅里葉變換轉化為頻域。
對每幀加窗后的信號做快速傅里葉變換(FFT),通常取FFT點數為2的整數次冪,確保計算效率。
得到的FFT結果為復數,取模的平方后除以FFT點數,得到每幀的功率譜,公式為:

其中,x(n)為第n個采樣點的時域信號,L為FFT點數,k為頻率點索引。得到頻率-功率分布的頻譜,橫軸為頻率(0-Fs/2),縱軸為對應頻率的能量強度。
(3)梅爾濾波:
通過一組按“梅爾刻度”分布的三角濾波器,該濾波器特點是低頻密集、高頻稀疏,模擬人耳感知特性,過濾無關頻率成分。
人耳對頻率的感知并非線性往,往是對低頻敏感、高頻遲鈍,梅爾頻率(Mel)與物理頻率(f,單位Hz)的映射關系為:

基于此設計梅爾濾波器組。

其中,Hm(k)為第m個梅爾濾波器的權重,僅在對應頻率區間內非零,呈三角形狀。經過以上步驟,就可以盡可能過濾掉與語音識別無關的高頻噪聲和冗余頻率成分,聚焦人耳敏感的核心頻段。
線性頻率與梅爾頻率的映射關系如下圖所示:

圖片來源于網絡
(4)對數與倒譜變換:
對濾波后的能量取對數,這一步也是為了貼合人耳響度感知,再通過離散余弦變換(Discrete Cosine Transform,DCT)提取低頻倒譜系數,最終得到12-13維核心參數。
人耳對聲音響度的感知遵循對數規律,且頻譜的包絡信息,即對應聲紋的音色特征是主要集中在低頻倒譜系數中,對每個梅爾濾波器的能量E(m)取自然對數,貼合人耳響度感知,公式為:

其中ε為極小值(如1e-10),避免能量為0時對數無意義;
(5)離散余弦變換(DCT):
把對數能量S(m)做DCT,提取低維倒譜系數,忽略高頻倒譜系數(主要對應頻譜細節噪聲),以13維為例,公式為:

其中n為倒譜系數索引。
接著還需要進行直流分量處理,第0維倒譜系數c(0)對應信號的平均能量,通常會被歸一化或移除,避免音量差異帶來的干擾。
MFCC聚焦與人耳感知相關的核心差異,能過濾情緒、音量等干擾因素。哪怕模仿者刻意復刻語氣,其共鳴腔結構無法復制,導致MFCC參數出現顯著偏差,這也是模仿者難以以假亂真的核心原因。
3、動態特征
動態特征反映說話人的后天發聲習慣,是區分模仿者與本人的關鍵補充。
如:語速特征,指單位時間內的發音字數、音節間隔時長。
有人說話急促,有人說話舒緩,這種節奏習慣長期穩定,難以刻意模仿。

此外還有聲調起伏,即語調的動態變化,比如疑問句結尾的升調幅度、陳述句的降調斜率,都帶有強烈的個人印記。提取時需計算F0軌跡的斜率、峰值數、波動幅度等參數。
動態特征彌補了基礎特征的局限性。比如:同卵雙胞胎的聲帶、共鳴腔結構相似,基礎特征差異較小,但動態特征(語速、語調習慣)仍有明顯區別,可通過這一維度實現精準區分。
四、匹配識別
系統將提取的聲紋特征,通常是基礎特征、MFCC配合上動態特征的組合向量形式,與數據庫中存儲的模板進行比對,有兩類驗證模式。
一類是1:1驗證,如手機解鎖、支付驗證。
主要是判斷當前聲紋與注冊者是否一致,閾值通常設為95%以上相似度;
另一類是1:N識別,如安防監控、尋找失聯人員。
這一類主要是在海量聲紋庫中篩選匹配對象,需平衡速度與準確率。
目前主流技術采用深度學習模型,如CNN、LSTM等,通過大量語音數據訓練,讓機器對聲紋的識別準確率遠超人類聽覺。

總結:
聲紋識別作為生物識別領域的重要分支,憑借聲音的唯一性與穩定性,已成為遠程身份驗證的技術之一。其核心原理是通過捕捉說話人先天生理結構與后天發聲習慣共同塑造的獨特聲紋特征,實現精準身份區分,聲紋的個體差異為識別提供了堅實基礎,即便模仿者刻意復刻語氣,也難以復制發聲器官的物理結構與長期形成的發聲習慣。
今天聲紋識別早已跳出技術圈,滲透到我們的日常,尤其在需要遠程身份驗證的場景中大放異彩:
在智能設備場景中,手機語音助手、智能音箱、汽車解鎖與控制,通過聲紋識別區分人員身份,有效避免隱私泄露,企業考勤系統也引入聲紋打卡,成功解決遠程辦公的考勤難題;而在公共安全與特殊場景中,公安系統可通過監控錄音的聲紋比對鎖定犯罪嫌疑人,司法領域中聲紋能作為電子證據輔助斷案,對于殘障人士而言,聲紋識別更能替代鍵盤、觸屏,成為便捷的設備操作方式。