計算資源有限的人如何在Deep Learning領域成長？

1樓：

看完了一圈回答，來首打油詩總結一下：

土豪氪顯示卡，

窮逼肝演算法。

大組刷SOTA，

個人靠造假。

給非專業人士解讀一下：隨著深度學習技術的普及，部分實驗越來越依賴計算力。有錢或願意投入錢的研究者可以通過使用大量顯示卡來完成實驗。

相比而言，有些資源缺乏的研究者就只能側重於研究演算法這類硬體依賴少的方向。大的組有了足夠硬體可以不斷刷SOTA(state of the art)，也就是通過刷高效果（不知道咋翻譯比較接地氣呢）來發文章。缺乏資源又想達到這樣目的的，有些人就會選擇了造假。

畢竟部分實驗復現成本很高。

2樓：

用AI Studio啊，每天登入就可以免費領v100的計算資源，不過只能跑PaddlePaddle，也算是Paddle使用者的福利吧

3樓：祥子

換用更輕量級的Backbone網路啊。

CVPR2019新出了乙個東風網路（DF），網路模型也公布了。

模型小，結構簡單，視訊記憶體占用少，精度不錯，做dense prediction有現成模型，大大降低對計算資源的要求，可以試試。

有希望替換掉ResNet18/ResNet50/ResNet101啊。

4樓：乙個旅人

結合自己學習Deep Learning以來的經驗來談談自己的感受吧，實驗室剛開始也只有單卡的機器，現在工作了有機會使用更多的計算資源。

如果從學習的角度上來說，一般的機器學習模型或者深度學習模型單卡還是能夠支撐的，視覺領域的不是特別了解，在自然語言處理領域常見的任務（情感分類，序列標註，QA，NMT除外吧），常用資料集單卡都是可以應付的。最近比較大的語言模型，ELMo單卡也是可以訓練的，只是時間長一點，BERT單卡呼叫預訓練的模型也沒有問題。

從做科研的角度來說，個人覺得不要執著於去做和工業界去拼計算資源的問題，BERT是個好東西拿過來用就可以了。在NLP領域，BERT出來之後幾乎讓單卡刷state-of-the-art變成了很困難的事情，其實這也不是壞事，學術界在有限計算資源的情況下應該更集中的去解決那些deep learning 中fundamental的問題，至於那些需要大量計算資源的的工作就交給工業界吧。

5樓：胡羅舶COOLHOBO

LeeChao：

1.盡量別去過熱的領域去試探，過熱的領域資料集一般都會很大，自然就超過你的資源承受範圍。

2.google Colab.谷歌提供了免費的K80的GPU用於訓練深度學習的模型。

而且最讚的是以notebook的形式提供,可以使用Keras、Tensorflow和Pytorch等，完全可以做到開箱即用。對於新手來說，作為學習跑一些小資料還是很有用的。但對於高階的AI研究或中度使用，這個平台的意義有限。

3.如果你還是學生，可以選擇實習（ヾ(°°)）本題由胡羅舶AR團隊Machine Learning Developer貢獻答案。

6樓：DongSky

可能第一步的一種可行解是即使現在資源不夠也要多做點實驗（哪怕是小模型或者簡單的實驗），可觸及的計算資源不夠就白嫖下colab？總之是積累經驗。

等在新手村攢了一些經驗了，那麼開始第二步，爭取到計算資源足夠的地方學習或工作（例如SenseTime）。那你就不缺計算資源了，那麼題設問題估計就不存在了。例如我組十人左右，現在能使用的資源大概是二百多塊Titan加幾百塊1080ti這樣的。

第三步，你的工資是能夠支援你買顯示卡或者別的計算資源的，你就有了真正屬於自己的計算資源了，更穩定。

所以說為什麼不加把勁申請工業界的實習機會呢？

7樓：劉鑫Vera

座標美東某籃球大學。去年master一年級剛入門deep learning和cv，做adv attack，組裡做演算法的基本都用mnist等小資料集，所以不趕deadline的時候，gpu一般是夠的……實在不夠了發揮強大的套近乎能力，和組裡管gpu的學長多要幾個server的賬號，總會有空的。

說回來，我主要做object detector的adversarial attack，資料集用voc和coco，一般1-2個gpu也是夠了。deadline前為了24小時無間斷利用gpu，估摸著訓練完的時間調個鬧鐘，深夜爬起來train下一輪……

暑假去了cuhk實習，model和資料集都大多了，當時乙個人可以control 4顆gpu，受寵若驚！cvpr deadline之前把model搬到了cluster上，從此再也不擔心計算資源了。

感謝商湯哈哈！！

8樓：恆小發

一套完美裝備就等於入門和專業嗎？

這其實就像很多人健身，總覺得買齊一套專業運動裝備，自己就會一改脾性瘋狂愛上健身，或者明天找到乙個完美健身環境，就會走上人生巔峰，事實上……emmm……

舉這個例子只是想說明：這些終究只是錦上添花的東西，問題不大。對深度學習感興趣的個人，有時的確在資源上受到限制，在做大資料量的機器訓練時無法完成。

但真的會限制你在deep learning領域成長嗎？

在深度學習的學習上，有限的硬體資源也不應該成為障礙。

首先，你可以通過努力讓有限的計算資源成為可利用資源。

先對樣本分佈進行分析，按概率分布密度進行取樣，減少訓練樣本數量，以致能在有限的硬體資源上進行訓練。

通常來說，不是涉及大量影象資料處理的深度學習模型，基本上都是能在普通的搭載顯示卡的台式電腦上、甚至膝上型電腦上執行起來的，訓練時間也不會太久。

其次，注重方法和流程的積累。

在深度學習的學習過程中，特徵工程和一些訓練，包括模型引數的調整，感覺也比要在大數量下跑出更優的模型和結論來說更重要，畢竟我們首先學習的是方法、流程，而不是實際產品專案中的效果。

劃重點：如何考慮深度學習和具體的應用場景結合，並在應用場景下先小批量訓練資料，得出深度學習的方法能在該場景應用下有突破傳統方法的效果才是重點。

不論怎樣，資源可以靈活轉換，不應限制成長。好的下一題。

9樓：swtheking

如果是在深度學習領域成長，真的需要大規模集群麼？至少在開始階段不需要。很多同學會有一種我跑過幾十億資料就是搞深度學習的感覺。

最後，如果對實現玩夠的同學，試一下auto ml，RL。這些都是可以在一台mac上玩出很多花樣的方向。zui

10樓：

本科階段，雖說實驗室也是做DL/CV的，但無奈學生太多，好多人共享GPU，平均下來基本上不到一張卡。遇到phd們趕ddl還得停任務讓別人先跑。

所幸那個時候做一些簡單的分類任務，而且是基於一些小的dataset，所以迭代起來也不算太慢。調參什麼的都是寫個指令碼完事在log裡面看看結果，後來嫌麻煩又寫了一堆自動化指令碼來處理log檔案再email給我。

要說成長，因為涉及一些layer的更改，所以看了很多caffe原始碼。除此之外就是養成了天天刷arxiv的習慣。

後來憑藉著水了一篇期刊，拿到了實習offer。來了某公司後就沒在缺過卡了，也是第一次感受以節點為單位跑任務（乙個node一般來說是8卡機器）。養成了任務都是16/32卡起的壞習慣。

來了公司後成長還是比較快，畢竟身邊人太優秀了哈哈哈

像很多答主說的，如果機器不夠，就努力找實習。無論去了公司做一些engineering或者research相關，成長都蠻大的。

11樓：Zhang Wang

自從搞了Deep Learning，開始這樣：14年的時候，在用筆記本的GPU

半年後上了台式電腦：左邊的機器裡裝的是顯示卡GTX660ti，雖然不用像以前要睡一覺等訓練，但是模型稍微複雜一點就跑不動了

15年時候是這樣的，上了雙路titan X，Ubuntu裝在intel的pcie ssd上

自16年以後沒有缺過GPU資源了。

12樓：

瀉藥。幾乎沒缺過機器，能有的解決方法基本被說完了。找個好組，出去實習。

還有乙個思路是比較難：去申請各大公司的research grant，如nvidia、amazon，fb什麼的，有的送卡，有的送aws credit 。

舉個例子：https://

打個廣告：

13樓：陳大寶

問到心坎上了_(:з」∠)_

我的本科學校因為成立的比較晚，在我開始做CV的時候還沒有計算機系。我唯一可以利用的只有自己的兩塊1080ti。

所以我一開始就選擇了比較不吃計算資源的影象超分辨作為研究方向切入deep learning。後來這個領域的榜被打爛了，我就轉做影象分割了。但眾所周知的是，影象分割是最吃計算資源的課題。

但我還是可以做的起來，因為我一開始的切入點是——醫學影象分割。醫學影象處理是不太耗計算量的，兩張卡勉強可以帶的動。

但是做這些領域其實是挺沒有夢想的，因為計算資源受限我只能在一些問題上小打小鬧，根本衝不進大眾的視野。

所以我選擇了出去實習。

不過，有了足夠的計算資源我就不難受了？錯……我越來越難受了！！！因為以前idea沒法實現我可以說是因為計算資源受限，但現在我發現了是因為我太菜(ω) 給我多少卡我都做不出頂級成果_(:

з」∠)_

所以當你計算資源受限，最好有兩種選擇：

1. 選擇不吃資源的領域入手

2. 去公司intern

當然……你發現有足夠的計算資源也做不出成果的時候你會懷念一窮二白的時候的(ω)hiahiahia

14樓：

我們團隊的方法是打算建乙個HPC超算中心，只是單獨建給自己用太浪費了，所以國內對這種算力的需求到底有多少？想在國內置乙個，科研人員願意付費麼？

15樓：珍珠奶茶不要珍珠

用獎學金買了1080ti，現在用得還不錯，真要玩深度學習，我覺得顯示卡最好配一張，花點錢值得。時間寶貴，訓練速度上來了，就省時多了，要不然每次在訓練模型的時候都不想幹別的，只能一直等，很浪費時間。

16樓：Wendell

現在Google Colab上有免費的TPU啊，知道TPU有多快麼？常規訓練乙個Resnet50只要10個小時，和8卡V100的速度相當。

所以你需要的只是一把梯子和一張信用卡（用於Google Cloud賬號）

1. 除了Mnist之類可以快取的小資料集，必須用Google Cloud Storage，否則IO會是瓶頸

2. 有些ops被硬體限制了，自定義ops肯定都不行了，因為backend不是CUDA，Tensorflow自己的很多API也不能用，比如tf.images裡頭的很多API，所以ROI Align之類的ops都無法實現，也就是Two stages的物體檢測演算法都無法實現（官方也只給出了retinanet的實現）

3. Notebook經常斷線，我準備寫個瀏覽器指令碼來實現自動重連。

4. Tensorflow

補充一下：要是覺得Colab不好用，直接花錢用TPU也不貴，搶占式的TPUV2 8核，乙個小時只要1.35美元，價效比比GPU高太多了，想跑超大規模的模型，還可以選擇TPUV3，TPUV2 32核、 128核、256核。。。

20190102更新：發現最近官方復現了Mask RCNN，使用高階API實現了ROI Align。

另外說明一下為什麼必須用GCS：TPU的運作方式和GPU不同，GPU是直接掛載到VM上，然後你就可以像本機使用GPU一樣用就好了，TPU是有TPU Server的，VM並不能直接訪問TPU，而是在VM上編譯好XLA，然後丟給TPU Server，所有的資料讀取、預處理、和TPU通訊等，都是在TPU Server上執行，所以你如果把資料放在VM上，IO必然是瓶頸。這也是為什麼不管你跑多大的模型，Colab配給你的VM效能都是夠用的。

計算資源有限的人如何在Deep Learning領域成長？

如何在有限的時間高效率學習？

如何在有限時間提公升自己的品味？

如何在沒有資源的情況下，外貿創業？

其他用戶還看了：