D FSMN以及科大訊飛最近提出的DFCNN仍然是基於HMM的嗎?

時間 2021-05-05 15:56:47

1樓:funcwj

FSMN提出的出發點和TDNN(TCNN)比較類似,使用feed forward結構學習序列中的長期依賴,相比RNN來說,訓練和推斷計算複雜度更低,同時建模效果也很好。它只是一種(可以替代RNN的)模型結構,具體使用的可以和你的任務結合起來,比如AM,LM和TTS等等。最先在AM上做實驗的時候,label就是cd-state,後續的CFSMN和DFSMN也是如此。

去年嘗試了CE和CTC的hybrid模型,建模單元用的是CD/CI phone, 解碼是基於WFST的,並非beam search。

所以關於問題1,2,模型本身和輸出,訓練的label是沒有關係的,只是說在傳統聲學模型建模中,我們都使用cd-state作為label,這時候輸出就是state level的概率分布,再配合對應的靜態圖進行解碼。是不是基於HMM也是看你label的選取是否依賴HMM,對應的輸出含義也是和你的label相關的。問題4 去年interspeech他們發過一篇文章(Acoustic Modeling with DFSMN-CTC and Joint CTC-CE Learning),但是其實也不是完全E2E,因為從他們選取的label,包括和CE joint training來看,還是需要做對齊和構圖。

問題3中的DFCNN我也沒有具體了解到。

建議題主把一些基本概念弄清楚~

你為什麼從科大訊飛辭職?

可能只有自己 2019,3.5入職,4.26離職,在合肥本部上的班,沒到兩個月,社會招聘進去的實習生,工作很簡單,人際關係複雜,適合剛畢業或是實習去體驗一下,不適合久待,編制少,很難轉正,實習生特別多,而且實習生很容易進,大專都可以,只要會簡單的辦公軟體就行,外包的員工很多,說是三個月轉正,學歷要求...

如何看待科大訊飛2020全員變相降薪

問題是剛剛才進來就遇到這齣啊,現在流行把狗騙進來再打?官老爺們可抬抬手吧 說什麼後面再發,那麻煩公司幫忙跟野銀行說一聲,貸款後面再補交吧。這不搞笑嗎? 為了緈鍢 每個企業在發展過程中都會有不斷變化的,不僅是薪資制度,管理制度,公司組織架構都會不斷變化,對於這樣的變化我覺得稍微有一些工作經驗的人都不會...

為什麼科大訊飛沒有潮汕話翻譯?

薛丁格貓 做不做乙個事兒主要看兩方面,一是技術可不可行,二是成本和回報是否相稱。技術上是可行的大家都知道,那麼成本和回報呢?換乙個方式考慮這個問題,如果你是科大訊飛老闆,在其他外語和更大使用人群方言的翻譯做完之前,肯定不會先做潮汕話啦。另外除了翻譯,還有語音識別等其他更有價值的業務做。所以沒做潮汕話...