如果是處理一維序列資料,Transformer結構(或self attention結構)比CNN好嗎?

時間 2021-06-07 21:48:00

1樓:

我已經受不了樓上那個吹軟閾值化的回答了,整個知乎感覺有好幾個號,瘋狂的無腦吹這個CNN,你去看他的回答,全是吹這個的,感覺我都快看吐了。

2樓:大江東去

不懂transformer。但是CNN有許多不同的網路結構,效能各有不同,可能不是那麼容易對比出優劣的。

例如,深度殘差收縮網路是一種較新的、特殊的CNN,在其結構中包含了軟閾值化,因而適合處理強噪訊號[1]

深度殘差收縮網路

另外,軟閾值化所需要的閾值,在深度殘差收縮網路中,也是自動設定的,不需要人工選值。

3樓:Jsgfery

Transformer(self-attention)不一定比CNN好。

Transformer的self-attention機制需要在序列中的任意兩個token之間計算相似度。這一方面使得self-attention能夠建模序列中更複雜的依賴關係。另一方面,時間和空間複雜度都是 ,這也使得vanilla的Transformer難以處理很長的序列( 512" eeimg="1"/>)。

一些後續的改進如LongFormer就是增強Transformer在處理長序列的能力。

CNN主要是用來提取序列中的區域性特徵,如NLP中的n-gram特徵。CNN計算高效,時間複雜度和空間複雜度都是 ,可以處理很長的序列,但是提取特徵的能力有限(乙個卷積核一次只能看到序列中乙個很小的範圍)。為了提公升CNN建模遠端依賴的能力,通常採用的方式是堆疊多個卷積層,這樣高層卷積核看到的序列範圍更廣。

但這種方式很低效,經常要堆疊很多層才能達到RNN和Transformer建模遠端依賴的能力。

Transformer應用最成功的領域機器翻譯,需要對較短的句子(機器翻譯任務中句子的長度通常不超過100)建模token間複雜的依賴關係,適合用Self-attention結構進行處理。而CNN在NLP中應用最成功的領域是文字分類。所需分類的文字(句子或文件)經常很長,但是文字的類別卻可以由其中少數的詞或短語(n-gram)確定,CNN恰好可以處理這種特徵。

如果是你的話,會怎麼處理這段關係

Ashlin 我沒有受虐傾向和受虐體質,因此我每次發現我朋友雙標很嚴重或者有愛 欺負 我的情況下,一般我就直接撕b然後拜拜了您內。別說小孩子氣之類的,因為這種朋友可以說沒什麼情商,不懂得珍惜。倒不如好好的愛自己何必受這種委屈。 魚糕權八郎 你可能沒嘗試過去引導她,這不是你的錯。本人男,有個小學同學,...

做Linux運維需要考一些證書嗎?如果是,需要考什麼樣子的,費用如何?

Linux運維RHCE吧,基本上沒有更適合的了,還要有的話隨手弄個CCNA也可以。運維行業對經驗要求極高,如果木有經驗基本上給多少要多少吧.有經驗的話,要想上W,要看去什麼公司。基本上國內國際一線IT公司都沒問題,另外銀行投資業界也沒問題。其他不了解不敢亂說。 考紅帽的證書其實挺有用,能夠強制學習相...

如果是你,你要怎麼處理《無職轉生》事件

把無職轉生下架,順帶下架一批日漫 日劇,就是裡面涉及點擦邊球的都下架,找人散布流言,說是lex的粉絲把b站舉報了,再讓lex公開支援女權 肖戰,最後b站頂住壓力將這些作品重新上架。 誠然 下架就已經是最好的處理方式了,本來無職就不適合作為大熱門進行推送,刪減也是拯救不了的,小眾的愛好被擺到檯面上來供...