深度文字匹配模型中出現的語義偏移問題指的是什麼?如何解決?

時間 2021-05-31 05:51:58

1樓:

語義偏移這個問題前面的答主解釋得已經比較好了,產生本質原因還是模型的泛化能力不足造成的,由於模型對語言的語義分布刻畫,通常侷限於見過的資料和模型本身的學習能力。這個問題在互動型模型中也存在,但不如表示型突出。前面的答主例子外再在廣義的偏移上,補充舉個簡單的case:

1. 大家都知道『翡冷翠』和『佛羅倫斯』是同乙個地方,但是如果訓練集中就沒有出現過,那麼這兩個的match score基本就是隨機的(嚴格意義上,這算是個弱case,可以不歸在偏移);2. 即便兩者在訓練資料中已經共現過,是模型已經學到的perfect match,『佛羅倫斯』還有一種寫法『弗羅倫薩』,或者是寫成英文「Florence」,模型沒見過也是會有偏移;3.

『佛羅倫斯』出現在語句中,加上了prefix或者suffix,同樣也會影響match score的計算。

搜尋是deep match比較重要的應用領域,解決這個問題的辦法我知道的有以下幾種:

大資料pre-train language model訓練。主要是做法就是盡量把這個星球上所有的語料訓練乙個符合語言真實分布的表達,然後再放到下游的model中訓練,比如現在如日中天的BERT,確實是比較有效的。

提高模型的學習能力。一種是前面已經提過的attention機制,另一種是目前還不是非常成熟的zero-shot learning和one-shot learning。這種情況下要求模型見微知著舉一反三,目前也是很熱門的topic,NMT領域的很多成果也會拿到deep match來用。

不過這個方向的普適性還不能做到前兩個方法的程度。

個人見解,僅供參考。

2樓:zach

比如,query是乙個長句,包含三個短句,「爺爺脾氣很不好,最近睡眠變差了巴拉巴拉,請問高血壓可以吃水果嗎?」,其實只有最後乙個短句很重要,前面講的兩句都是廢話,現在假如問答庫里有乙個question是「高血壓患者可以食用水果嗎」。其實上述query和該question是exactly match的,但是使用representation-based方法表示成向量再計算cosine similariy的時候,query和question句向量之間的夾角被query裡面那兩個不相關的短句帶偏了。

但是interactive-based模型就可以解決這個語義被帶偏的問題,舉個最簡單的方法,比如對query-question形成的句子矩陣按行做max pooling,那麼對query的每個詞而言,它只關心跟自己相似度最高的詞,得分加到最終得分上面去,兩個句子間match到的詞越接近則最終score越高,就不用擔心被不相關的短句或者詞語帶偏句向量間的夾角。

還有一種解決方法是hierarchical attention機制,即:在訓練神經網路來表示句向量的時候,把詞的重要性、短句的重要性都學出來,這樣可以減少不重要的詞或短句的影響。

3樓:霍華德

既然沒有人回答,我就來拋磚引玉,我來拋乙個磚。

我以前訓練過相當大語料(一億組樣本)的DSSM模型,測試集上表現的也不錯。可是我一次不小心在乙個測試樣本上多加了乙個逗號,相似度馬上就從0.99變成0.

1,我想這就是你說的語義偏移問題。

原本含義一致時兩句話,你在不改變原意的情況下,稍微改一點,加個「啊」或「哦」,或者同義詞替換一下,馬上相似度分數就會有很大的波動。

各語言的拼音文字中出現頻率最高的字母是哪個?

我作業從來都不寫 日文假名,個人感覺是 音素估計也是。日本語 使用頻度 日本語 朝日新聞読売新聞 一面及 社說 歴代大統領 就任演說和訳 20代男性 E mail及 刑法 11萬 解析內 數字 出現回數 解析方法 漢字 変換 kakasi 使 漢字及変換 上 統計 取 6653 2445 1411 ...

深度學習的模型加速與模型裁剪方法

百事 跨網傳輸考慮安全性,速度,可管控的傳輸 簡單易用的跨網檔案安全交換系統,跨網檔案安全交換系統 Ftrans Ferry 以軟體系統為核心,無需複雜的環境支援,部署簡單,大幅減少IT人員日常維護工作量。使用介面一目了然,不改變使用者日常使用習慣,操作簡單,開箱即用,平滑建設跨網檔案交換體系。企業...

深度學習的模型並行是什麼原理?

劉留 把mini batch分割成micro batches GPipe Efficient Training of Giant Neural Networks using Pipeline Parallelism 說一下我工作的經驗,多GPU並行有兩種方式 一是資料的並行,二是模型的並行。通常第一...