兩個嗓音不同的人發出了一段相同的音訊,此時兩者的記音有沒有可能不同?

時間 2021-05-06 20:39:21

1樓:井韶子

當然有可能呀。記音者又不是機器,不會手動把時頻圖畫出來,而但凡涉及到感知層面,事情就變得複雜起來了。

人們能感知不同母音,主要是因為母音的共振峰頻率位置不同。在現實中,我們首先聽到的都是說話人的絕對共振峰值。但是你有沒有想過,為什麼不同年齡、不同性別的說話人發出的[i],明顯擁有不同的絕對共振峰值,但是我們仍然會將其感知為[i]?

這涉及到母音產生的問題。從科學的層面看,母音的產生並不是如語言學傳統所認為的通過舌位高低、舌位前後等調節來決定的。母音的產生與舌位高低、前後並無直接關係,此類生理語音術語使用了錯誤的描寫維度;正確的描寫維度應該是聲腔窄縮程度與窄縮位置,因為窄縮位置決定了前後聲腔的尺寸,而窄縮程度則影響二者的耦合關係。

也就是說,對母音的定義主要取決於聲道構型,而並非是絕對共振峰數值。後者是前者的一種體現方式。

聽話人把不同的聲學模式歸為同乙個音位範疇,這一過程被心理學家稱作等同分類。人們假設聽話人可以對聲道長度引起的變化進行補償,這一過程被稱作聲道規整。聲道規整假設聽話人可以自動去除聲學特徵的系統共變的過程,這樣便可以減少或消除母音範疇之間的明顯重疊。

換句話說,母音的特徵由相對共振峰決定,每個母音都擁有固定的共振峰區域,即其特徵頻率區域。對於頂點母音[i u a]來說,無論說話人的聲腔尺寸有何差異,他們的[i]都有乙個很低的F1和乙個很高的F2;他們的[a]都有乙個很高的F1以及乙個與F1相對接近的F2;他們的[u]的F1、F2都很低。

那麼聽話人是如何「去除聲學特徵的系統共變的過程」呢,也就是說,聽話人是如何忽略不同說話人的聲道長度的差異的呢?目前有多種不同的假設:外部規整內部規整

外部規整即,聽話人可以根據前後語音環境來持續校準說話人的母音空間,從而在感知該說話人所發的後續母音進行參照。乙個例子是,Ladefoged和Broadbent曾設計過乙個實驗,他們生成了四個了不同F1的「bVt」(如「bit、bet、bat、but」),和六句擁有不同F1、F2範圍的負載句「Please say what this word is」。實驗發現,聽話人單獨聽辯「bVt」時,隨著F1的增加,其感知的單詞依次為:

「/bt/」「/bet/」「/bt/」「/bt/」。然而把這些單詞放到句子中時,對其的感知就會隨負載句的整體頻率範圍而改變。如,「/bt/」單獨聽辨時被感知為「/bt/」,但是放到乙個F1相對較低的負載句中,則會被感知為「/bet/」。

外部規整能夠給出了母音感知方面的一些理解,但是這種解釋方法並不是完美的。有乙個很好的反駁證據就是:當隨機混合不同說話人的聲音時,母音感知的正確率依然非常高,並不需要大段的語音來供聽話人進行校準。

並且,任何外部規整理論都迴避了乙個問題:如果對母音的感知取決於其前置的母音,那麼成功的感知是如何開始的呢?一種解釋是點規整,根據說話人發出的乙個母音/i/,聽話人馬上就能估算出該說話人的聲道長度;另一種解釋是範圍規整,即說話人發出至少兩個母音。

)與外部規整相對的一種方法是內部規整。內部規整認為,所有用於辨認乙個母音的必要資訊都包含在該母音之中。換言之,哪怕乙個說話人只發出一秒鐘的(甚至不太標準的)或者,受過專業訓練的語音學家也能僅憑這一秒的音訊辨認出來他們發出的母音到底在這個人的母音空間中的哪個相對位置。

人是怎麼感知聲音頻率高低的?

人耳就是乙個天然的能進行傅利葉變換的黑箱子。「音值感知」和音位感知也是不同的,而我們通常談論的是音位感知。同樣是上述實驗,語音學者進行聽感實驗時,依然會感知為/e/音位,但是他們能夠明確這個/e/的音值是偏高的。

甚至能感覺出來整個負載句的音值都是偏高的。而且語音感知實際上就是對頻率的感知,因此具有絕對音感的人的感知準確度會更高一些。在強大的力量(praat)面前,一切花招都是紙老虎(

至於具體的「音值感知」,恐怕就不是語言學而是心理聲學的研究範圍了……語言學部分也就暫時到這裡,韶子接下來從其他角度說一下這件事。

然後回到題主的問題和問題補充上:

兩個嗓音不同的人發出了一段相同的音訊,此時兩者的記音有沒有可能不同?

國際音標究竟是「絕對」的還是「相對」的?

這裡的「嗓音不同的人」我就擅自理解為題主想表示的是相同發聲態的情況下的「音色(timbre)」不同,而不是語音學上的「語音質量(Voice Quality)」不同了。

「兩者的記音有沒有可能不同」我也擅自理解為,二者聲道中的「用於辨別說話內容的部分有沒有區別」。(不包含上文提到的感知為/bet/的音位差異了,這裡只談聲學差異)

一般來說,兩名說話人的音色不同,主要是聲道形狀的微小差異導致的濾波器形狀的不同,但同乙個說話人的不同母音,也是聲道形狀的變化導致的濾波器形狀的不同。所以就看人腦還原出的聲道構型中,用於辨別說話人和辨別說話內容的不同特徵,哪些權重更大。而二者又是必然會相互影響、永遠無法分割的。

即便在語音識別的演算法層面,也不能完全解決,只能依靠裝在黑箱子裡的「神經網路」「深度學習」來不斷提公升準確率。同時,每個人的聲道構型也可以不斷變化,比如配音演員的不同聲線,就是改變了用於識別說話人部位的聲道構型。如果改變過多,其實是會影響到辨認說話內容的部分的……

聲道形狀的微小差異,在音位感知中通常會被過濾掉,可以看作基本上沒有影響。不過如果有些人的聲道形狀和普通人差異十分巨大的話(比如遭受疾病或大型手術),使其聲道中無法形成收緊點,或形成多個收緊點,那麼是會影響感知的。不過這是病理語言學的範疇,不在此詳細展開。

從物理講,一段語音的波形產生這段語音時的聲道構型聲源型別必定是絕對的、嚴格對應的,只不過現有技術無法精確還原。(而模擬的音訊有些也無法對應現實存在的物理模型)

而音標的「標音」,根據定義,標的是聲道的窄縮程度與窄縮位置,而不是全部聲道構型,是無法辨別說話人的,如果用共振峰值表示,則必然是相對的但人在第一時間聽到的只有說話人的絕對共振峰值,我們需要根據共振峰,人工過濾掉「用於辨認說話人的部分」,留下「用於辨別說話內容的部分」,這一部分才是我們想要的聲道窄縮程度與窄縮位置。但很可惜,我們沒有辦法完全將其過濾出來。

並且,窄縮程度與窄縮位置並沒有嚴格的單位規範,如長度cm,只不過對於具體某段時期的某個人,其最外側的界限或範圍可以認為是較為固定的。同時,窄縮程度與窄縮位置是乙個多維連續統,我們能根據聽感還原出每個音大致在什麼位置,但音標是離散的,只能表示相對位置。因此,從哪個角度來看,國際音標都是一種相對的概念。

最後要說的是:國際音標是研究語音學的「工具」,而不是目的。但是這個工具也需要規範使用,否則便不能帶來好的效果。

p.s.後續的內容就不是韶子所能涉及的了emmm太複雜了,溜了溜了。

2樓:UntPhesoca

可能https://

同乙個音訊,可以是嗓音細的「Yanny」也可以是嗓音粗的「Laurel」

在一段友誼中你發現兩個人不是乙個世界的人 走向了不同人生道路 應該怎麼去選擇

DUMM10 我始終覺得每個人都是獨自走在人生的路上,如果你覺得兩個人已經不是乙個世界的人了相信我對方也會同樣這樣覺得的,人都是相互的,你的這種感覺他肯定也有。不用刻意去在意,慢慢的你們會有自己的圈子,也會在突然想起對方的時候聊天,說天說地說過去,這不用選擇,這只需要時間。 Sucker 高考結束,...

兩個健身的人乙個吃粉乙個不吃相同的訓練,有什麼不一樣

夜聽雨 純品蛋白粉的本質依然是蛋白質,只是吃著方便,更易被腸胃消化且吸收利用更快,所以咱們完全可以這樣想,把 粉 換成 蛋白質 再假設這裡有兩個 你 由此可以得出以下情況 先說飲食方面 1.假設日常蛋白質的補充不足,那吃粉的那個自然攝入了更多的蛋白質來幫助增肌 2.假設日常蛋白質的補充足夠,那兩方差...

教科書上說 一段動詞的詞尾有兩個假名 為什麼見 的詞尾只有乙個假名 卻被歸為一段動詞呢?

這是什麼教科書啊.我覺得既然按學校語法學的話就不能這麼求簡便吧.求簡便的話就按一類動詞二類動詞學就完了.既然都一段五段了就把上一下一薩變卡變之類的學明白比較好. 清水君SHIMIZU 看書要看完整。特殊情況特殊記憶。至於過 和楽 為啥是五段,第一,人家不以 結尾。第二,人家詞尾最後乙個假名在 段上。...