深度學習顯示卡 cuda數量和視訊記憶體頻率 頻寬 大小哪個更重要?

時間 2021-05-05 22:52:02

1樓:Artorias

別問,問就Tesla v100(馬上應該是Tesla A100了)(#滑稽)。如果考慮這三張卡的話建議優先考慮cuda核心數量和核心頻率,然後是視訊記憶體大小。因為這種水平的卡基本只能算著玩玩,所以現存頻寬已經不重要了,視訊記憶體頻率更加沒卵用。

cuda核心數量和頻率基本決定了卡的計算能力,視訊記憶體大小決定了你的神經網路的規模,鑑於這個水平的卡算力較弱,視訊記憶體就算給的很大你也沒有足夠的時間等網路算完,所以盡量在性能夠好的前提下選擇更大的視訊記憶體。視訊記憶體頻寬是由視訊記憶體頻率和視訊記憶體位寬決定的,一般的卡瓶頸還是在核心計算能力,所以不用太考慮視訊記憶體頻寬。

2樓:小笨瓜

cuda數量與頻率決定了速度視訊記憶體決定了你能跑多大batch size

老黃這邊顯然覺得視訊記憶體重要計算卡相比遊戲卡cuda效能沒啥提公升就視訊記憶體大點卻貴了好多

3樓:

取決於你的任務

Tim Dettmers大神已經總結了經驗法則:如果用RNN,請看頻寬;如果用卷積,請看FLOPS;如果有錢,上Tensor Cores(除非你必須購買Tesla)

視訊記憶體越大越好,而用混合精度訓練可以幫你節約視訊記憶體,同時Tensor Cores可以進一步對半精度運算提速30%~100%

4樓:臨界Z零點

速度取決於cuda數量和頻率,視訊記憶體頻寬。

計算達到的規模和視訊記憶體關係很大。

深度學習用途,如果要上「範兒」「正規」「專業」請使用18/19年推出的TESLA系列相關型號計算卡。相較於quadto系列更實惠一些。

而要實惠的話,P104礦卡當之無愧,可以刷bios恢復真身8G視訊記憶體。不過完全沒質保。

CUDA運算速度和顯示卡CUDA核心數量關係大嗎?

高通 同樣架構下,運算速度和核心數量等比例遞增,Cuda核心裡面有運算器,例如乙個Float32浮點運算器,1000個核心,1G主頻,則FP32的算力為1T Flops,就是這麼簡單。新的架構下 1 Float的運算器可能是 64位的,可以實現雙精度計算,在單精度上翻倍 2 新的Tensor Cor...

深度學習多卡視訊記憶體疊加嗎?

xiedidan 可以的,前面那位估計沒做過多卡訓練,現在框架都提供了多卡多機並行機制,比如pytorch的data parallel 多卡當然可以batch與卡成正比關係,要注意batch越大學習率要相應增大,不然會過擬合 當然不行,因為一張卡一次處理乙個batch,batch size是64的時...

深度學習為什麼對顯示卡要求高?

麗台科技 深度學習是乙個計算需求非常強烈的領域,GPU執行的是平行計算,擁有更多的運算單元和浮點計算能力,另外,GPU顯示卡往往擁有更大頻寬的視訊記憶體,在大吞吐量的應用中也會有很好的效能。這就意味著GPU更擅長深度學習,深度學習由多層的神經網路組成,這些神經網路包含很多權重和偏置,也就是許多巨大的...