一段音訊中判斷多個人聲?

時間 2021-05-08 20:18:01

1樓:Yi Luo

1)只需要判斷人數,不需要知道他們分別在什麼時間說話(number of speakers)

2)判斷人數並且知道他們說話的時間點(diarization)

3)判斷人數並且分離每個人的說話聲(separation)

除此之外還有很多需要考慮的因素。錄音環境,比如近場或者遠場,單通道或者多通道,也是非常重要的資訊;說話人資訊也可能影響方法,比如只要求判斷事先知道的某些說話人(speaker dependent)或者對任意說話人都要能判斷(speaker independent);說話人之間的重疊(overlap)長度也可能影響「判斷有幾個人在說話」的時間區間(0.3秒內有幾個人?

1秒內有幾個人?等等)。

1)如果只需要知道人數,乙個簡單的分類器一般就能滿足需求,其效果類似乙個多說話人的vocal activity detection (VAD)。

2)如果需要知道「誰在什麼時間講話」,問題就變成了speaker diarization問題,這方面文獻很多但我不大了解,就不敢亂說了。我所知道的方法大多基於說話人的i-vector或某些能體現說話人資訊的特徵。

3)如果要求分離出每個人的說話聲,就變成了多說話人分離問題(multi-talker separation)。以目前的發展,在單通道情況一般3人及以下的音訊裡,分離效果已經不錯了,並且新的系統已經能夠通過判斷有幾個人來調整輸出(比如只有2個人說話,那麼3個輸出裡有1個輸出會是靜音)。我們最近的一些工作也在持續提高這個問題下系統的效能。

2樓:micos

可以基於聲紋特徵的方式對說話人的聲音進行自動分離,也稱為人聲分離或人聲分割,這種方式的前提是說話人不能同時說話,如果兩人同時說話,頻率會疊加後會讓計算機認為是第三個人的聲音,這種現象專業點叫雞尾酒會效應,學術界也沒有好的解決辦法。

人聲分離的原理是通過對語音檔案進行切片,然後提取每個語音片的聲紋特徵,並按設計好的方式進行聚類,根據聲紋特徵的差異,也可以判斷出這段語音裡的說話人數量,最後進行語音拼接,得到分離後的每個人的聲音。

如何判斷一段感情是否走到盡頭?

最近失眠,變得很喜歡給人講道理哈哈。其實一段關係的走向在中間的時候就可以預見了。都是慢慢累積。比如你會常常沒有安全感他的一些行為讓你很不舒服。而認清前因後果,則是意識到自己的修為是一切根源。只有在關係裡的兩個人才能決定關係的變化,答案一定藏在兩個人的相處之中。答案只能靠你去回想,靠你去同理對方的感受...

怎麼判斷一段關係平不平等?

了解彼此的底線,並相互守護彼此的底線。從不因有可能會失去對方而擔憂,也從不讓對方擔憂會失去自己。從不需要傷害自己的自尊心,也絕不傷害對方的自尊心。能很坦然地過自己的生活,做自己,並感到被理解 認可和尊重。 籬暖冬 兩個人心裡都覺得舒服,就是平等的感覺。有乙個人覺得不舒服,天平就有了傾斜。不過大多數關...

如何判斷一段感情是否是孽緣?

鑄楊先生 題主問 如何判斷一段感情是否是孽緣?這再簡單不過了,我們智慧型的祖先早在幾千年前就給了我們答案,這種事情,周易 一卦便知 道一 孽緣就是不正確的感情緣分。通常這樣的感情會有兩點表現,第一點就是和孽緣在一起後,自己的心情會變得很差,經常處於低落沮喪悲傷的情感狀態,這樣的感情就是孽緣 第二點就...