如何看待NLP領域最近比較火的prompt，能否借鑑到CV領域？

1樓：高斯定理

能啊。其實在多模態領域，DeepMind將視覺資訊作為promt輸入NLP模型，而且只需要對視覺編碼器進行訓練

具體細節可以看回答

2樓：ZenMoore

prompt 剛剛火起來，能填的坑有好多好多...

在 CV 多模態這塊兒做 prompt ：

@zibuyu9 劉老師是一種思路，用 colored image proposals.

FewVLM 也是一種思路，用 QA.

其實這兩種方法最核心的 prompt design 思路是，如何用語言描述影象。

所以我這裡還有想到一種思路，用 Hinton 的 Pix2Seq 來進行描述，不知道是不是乙個比較好的 idea...

3樓：謝淩曦

我的看法比較保守：按照當前的情況，在CV領域強推prompt，似乎行不通。首先，我認為，prompt-based之所以能在NLP領域發揮較大作用，是因為NLP任務具有連續性：

也就是說，不同任務（分類、理解、生成）之間沒有明顯的邊界。基於這一點，prompt將各種任務優雅地統一為完形填空，使得下游開發難度大大降低。

但是CV任務是離散的：分類、檢測、分割，你很難找到一些有意義的中間任務。這就意味著，即使設計了許多prompt，它能夠解決的問題，歸根結底還是些離散的點。

那麼我們就要問：這跟單獨訓練不同的任務有什麼本質區別？注意這裡說的是本質區別，不是multi-task這種淺顯的區別。

也許有人會說，現在的prompt確實讓CV任務變得更靈活了，比如可以從影象中找到想要的物體，或者讓agent回答一些問題。然而，這些都是和NLP相關的任務（captioning、VQA、referring expressions，等等），並不是純視覺的。也就是說，似乎CV中的prompt，作用還是侷限於引入NLP的先驗（或者預訓練），距離視覺真正的困難，還稍微差點意思。

推廣開來，我始終認為，影象和文字兩種資料形態具有巨大的差異，所以我們不應該假設在某個領域中得到的經驗能夠迅速應用到其他領域中去。我認為，現在CV領域最大的問題，是評價指標和現實需求的嚴重脫節：給定一張影象，非得一口氣把其中所有的物體都檢測/分割出來；而現實應用中往往沒有這個必要。

況且，所有資料集都是固定的，做著做著就從資料集層面、甚至任務層面上過擬合了；而現實中，往往並不是交付乙個模型了事，而是需要持續利用失敗樣本去迭代。從根源上說，這是監督學習走入困境的表現，但是強化學習還是個toy，似乎大家也沒什麼招。

說遠了。回到這個話題，學術研究本身就是不斷探索，把不可能變成可能的過程。從這個角度看，目前在CV中應用prompt的研究，都是非常有趣的——說不定哪天，真的從prompt上取得線索/突破，設計出一種新的CV任務了呢？

4樓：

個人理解，這有點模仿人類學習，像上課中加了隨堂提問和思考題，藉此對資訊加權。如果要用到CV，應該一樣可以，不過相比NLP，影象和語義的對映會複雜一些，這個反饋資訊的流程可能會難一點。

5樓：

私以為prompt之所以能夠work，是因為prompt將下游的NLU任務轉化為了語言模型任務，也就是large-scale pretrained model的預訓練任務本身，從而能夠直接利用pretraining過程中學習到的知識，而不是僅僅將pretrained model當成乙個feature extractor，並降低了對finetuning的依賴。

之所以能夠執行這樣的轉化，是因為NLU任務本身就是可以用自然語言描述的。

（說了半天啥都沒說hhhhh

如何看待NLP領域最近比較火的prompt，能否借鑑到CV領域？

怎麼看待最近比較火的 GNN？

如何看待知乎上最近比較火的相親貼？

如何看待最近很火的421？

其他用戶還看了：