如果是處理一維序列資料，Transformer結構（或self attention結構）比CNN好嗎？

1樓：

我已經受不了樓上那個吹軟閾值化的回答了，整個知乎感覺有好幾個號，瘋狂的無腦吹這個CNN，你去看他的回答，全是吹這個的，感覺我都快看吐了。

2樓：大江東去

不懂transformer。但是CNN有許多不同的網路結構，效能各有不同，可能不是那麼容易對比出優劣的。

例如，深度殘差收縮網路是一種較新的、特殊的CNN，在其結構中包含了軟閾值化，因而適合處理強噪訊號[1]

深度殘差收縮網路

另外，軟閾值化所需要的閾值，在深度殘差收縮網路中，也是自動設定的，不需要人工選值。

3樓：Jsgfery

Transformer(self-attention)不一定比CNN好。

Transformer的self-attention機制需要在序列中的任意兩個token之間計算相似度。這一方面使得self-attention能夠建模序列中更複雜的依賴關係。另一方面，時間和空間複雜度都是，這也使得vanilla的Transformer難以處理很長的序列（ 512" eeimg="1"/>）。

一些後續的改進如LongFormer就是增強Transformer在處理長序列的能力。

CNN主要是用來提取序列中的區域性特徵，如NLP中的n-gram特徵。CNN計算高效，時間複雜度和空間複雜度都是，可以處理很長的序列，但是提取特徵的能力有限（乙個卷積核一次只能看到序列中乙個很小的範圍）。為了提公升CNN建模遠端依賴的能力，通常採用的方式是堆疊多個卷積層，這樣高層卷積核看到的序列範圍更廣。

但這種方式很低效，經常要堆疊很多層才能達到RNN和Transformer建模遠端依賴的能力。

Transformer應用最成功的領域機器翻譯，需要對較短的句子（機器翻譯任務中句子的長度通常不超過100）建模token間複雜的依賴關係，適合用Self-attention結構進行處理。而CNN在NLP中應用最成功的領域是文字分類。所需分類的文字（句子或文件）經常很長，但是文字的類別卻可以由其中少數的詞或短語（n-gram）確定，CNN恰好可以處理這種特徵。

如果是處理一維序列資料，Transformer結構（或self attention結構）比CNN好嗎？

如果是你的話，會怎麼處理這段關係

做Linux運維需要考一些證書嗎？如果是，需要考什麼樣子的，費用如何？

如果是你，你要怎麼處理《無職轉生》事件

其他用戶還看了：