語音識別技術的干擾因素有哪些?

時間 2021-06-01 14:16:10

1樓:老王

前面其他的回答已經提到了,雜訊是語音識別演算法的乙個重要干擾因素。

通常,雜訊越強,語音識別的效果越差。

針對這種強雜訊的問題,深度殘差收縮網路(https://ieeexplore.ieee.

org/abstract/document/8850096/)採用了軟閾值函式,而且自動設定了其閾值,盡量消除冗餘雜訊資訊的影響,有可能為提高語音識別效果提供思路。

2樓:一路向東

影響語音識別效能的因素一般認為有:

1. 背景噪音。現在隨著DNN等技術的應用,對噪音的魯棒性有一定提高,但是當訊雜比較低(如零以下)的時候效能還是會下降很厲害。

特別是當背景雜訊是人聲的時候。我曾經試過當前一些主流的雲端引擎,訊雜比較低的時候識別結果會大量的丟字,可能是把語音也判斷成噪音丟棄了,也可能是因為識別出的字置信度太低被丟棄了。

2.口音。在中國主要是方言口音。

雖然當前的系統都會內建相容常見方言的多發音字典,訓練資料也會包含有口音的資料。但中國的方言太過多樣,而且方言影響的不只是聲、韻母發音,還包括聲調、韻律等,所以當前系統對口音較重的普通話識別效果仍然不好。

3.自然的發音方式。這是和朗讀對應的。

這在轉寫和速錄一類的任務中尤為突出。因為使用者不是有意識的向計算機輸入,而是自然的對人交流,所以使用者不會刻意說得慢而清晰,語音中會有大量的連音、吞音、發音變形,還會有「嗯啊呃」,「這個」一類的無意義發音和重複、糾正等。當前也有針對這類語音的研究,但總體效能還不理想。

我曾經見到某會議上採用某公司的語音速記系統生成同步文字上屏顯示,剛開始主持人發言清晰標準,識別效果很好。然後上來個北京大姐脫稿發言,一口京腔灑脫隨意,識別結果支離破碎怪詞迭出完全不能看,守著系統的小伙兒狂切螢幕想把不好的結果隱藏,最後還是無奈暫停了速記。

4.特定領域和主題。這個其實我認為是最大的難度。

人其實在這方面也有困難,例如我家隔壁不識字的奶奶就看不懂新聞聯播,我媽聽我做學術報告也一頭霧水。對於計算機,要求它能適應各種領域的各種詭異用詞確實很難。

最後,給個例子吧,我選過幾段測試語音,都是網路課程,老師都有較重口音,內容分別是高數、線代和圍棋。用主流的幾種雲端引擎測試,準確率在70%左右(高數最好引擎79.5%,線代最好引擎70.

0%,圍棋最好引擎70.5%)。而採用新聞聯播中的播音員語音測試,則準確率都在95%以上,最好引擎達98.6%。

中文語音識別和英文語音識別在技術上有哪些重要差異?造成這種差異的原因有哪些?

北葵向暖夏 語音識別主要有以下五個問題 1.對自然語言的識別和理解。首先必須將連續的講話分解為詞 音素等單位,其次要建立乙個理解語義的規則。2.語音資訊量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,乙個說話人在隨意說話和認真說話時的語音資訊時不同的。乙個人的說話方式隨著時間變化...

決定技術合夥人加入創業團隊的因素有哪些?

靈兒動 1 價值觀一致 2 要有絕對的老大 3 能力 性格互補 4 交錢才能交心 5 結合大家未來的貢獻做適當的股權調整 當然最重要的是股權分配問題 鐘紅雨 作為技術合夥人我們在選擇創業者的時候也要看 1 創業者人品 2 專案的市場前景 3 專案投資多少 4 多技術合夥人股份多少 5 自己的技術是否...

導致失眠的因素有哪些?

敏敏 身體健康和心理健康。首先好的體質是保證睡眠質量的基礎,然後就是心理問題,容易焦慮有壓力都會導致失眠 睡不好,自我感受哦,我也一直在努力調節中。 失眠小站 大致可能存在以下因素 一 環境因素干擾導致失眠 睡眠和環境有很大的關係,當自己的睡眠環境光線太強,隔音效果比較差時都會讓自己發生失眠,或者是...