語音識別技術的干擾因素有哪些？

1樓：老王

前面其他的回答已經提到了，雜訊是語音識別演算法的乙個重要干擾因素。

通常，雜訊越強，語音識別的效果越差。

針對這種強雜訊的問題，深度殘差收縮網路（https://ieeexplore.ieee.

org/abstract/document/8850096/）採用了軟閾值函式，而且自動設定了其閾值，盡量消除冗餘雜訊資訊的影響，有可能為提高語音識別效果提供思路。

2樓：一路向東

影響語音識別效能的因素一般認為有：

1. 背景噪音。現在隨著DNN等技術的應用，對噪音的魯棒性有一定提高，但是當訊雜比較低（如零以下）的時候效能還是會下降很厲害。

特別是當背景雜訊是人聲的時候。我曾經試過當前一些主流的雲端引擎，訊雜比較低的時候識別結果會大量的丟字，可能是把語音也判斷成噪音丟棄了，也可能是因為識別出的字置信度太低被丟棄了。

2.口音。在中國主要是方言口音。

雖然當前的系統都會內建相容常見方言的多發音字典，訓練資料也會包含有口音的資料。但中國的方言太過多樣，而且方言影響的不只是聲、韻母發音，還包括聲調、韻律等，所以當前系統對口音較重的普通話識別效果仍然不好。

3.自然的發音方式。這是和朗讀對應的。

這在轉寫和速錄一類的任務中尤為突出。因為使用者不是有意識的向計算機輸入，而是自然的對人交流，所以使用者不會刻意說得慢而清晰，語音中會有大量的連音、吞音、發音變形，還會有「嗯啊呃」，「這個」一類的無意義發音和重複、糾正等。當前也有針對這類語音的研究，但總體效能還不理想。

我曾經見到某會議上採用某公司的語音速記系統生成同步文字上屏顯示，剛開始主持人發言清晰標準，識別效果很好。然後上來個北京大姐脫稿發言，一口京腔灑脫隨意，識別結果支離破碎怪詞迭出完全不能看，守著系統的小伙兒狂切螢幕想把不好的結果隱藏，最後還是無奈暫停了速記。

4.特定領域和主題。這個其實我認為是最大的難度。

人其實在這方面也有困難，例如我家隔壁不識字的奶奶就看不懂新聞聯播，我媽聽我做學術報告也一頭霧水。對於計算機，要求它能適應各種領域的各種詭異用詞確實很難。

最後，給個例子吧，我選過幾段測試語音，都是網路課程，老師都有較重口音，內容分別是高數、線代和圍棋。用主流的幾種雲端引擎測試，準確率在70%左右（高數最好引擎79.5%，線代最好引擎70.

0%，圍棋最好引擎70.5%）。而採用新聞聯播中的播音員語音測試，則準確率都在95%以上，最好引擎達98.6%。