適合深度學習伺服器的RAID方案?

時間 2021-05-31 21:48:29

1樓:

你是大量寫,少量讀,不知道隨機還是連續。不過你既然提到了用於深度學習,那估計你需要很大的空間,全 ssd 方案成本上太高了。不建議使用。

另外你不想換硬體,但是卻沒有列舉你的硬體,尤其是 raid 卡。這個非常非常重要,是否有 cache,是否由 bbu,是否帶 cache cade(ssd 加速)這些你需要給出。以下建議均作為你採用了比較高階的硬 raid卡,有 bbu,有cache,不帶 cache cade 的情況下給出的。

另外這些建議只適用於機械盤,ssd 陣列是另外一種情況。

如果你能補充資訊自然更好。

基礎的。。。。。。。。。

首先看條帶 raid0, raid 0 你肯定是不能用,資料上沒有冗餘,而且掉一張盤就完蛋,10個4T 掉盤可能性又很高,所以raid0 用不得。

然後映象 raid1,raid1 讀速度這個其實看控制器,優化的好有n(n 為盤數,比如你的10張)的提速,優化的不好他會訪問所有的盤然後拿返回最快的那乙個資料。寫入並沒有什麼提高,那麼這個你寫的多讀的少自然沒法用。

稍微高階的。。。。。。。。。

然後看 raid10,在10個盤的時候,raid10就是一半的有效空間,掉第一張盤安全,掉第二張盤陣列會不會掛掉取決於掉的是那張盤。拿10個盤來做,理想情況下連續寫的速度是單盤的5倍,讀取速度是單盤的10倍(看控制器)。寫入速度、讀取速度都比較穩定。

raid10對cache 的依賴小很多,做軟 raid10也還能用。

高階的然後看 raid5,raid5 就是 n-1張的容量,那個1的空間是拿來存校驗的,掉乙個盤安全。在有足夠cache 、硬raid 卡的演算法沒問題的情況下,連續寫效能甚至比 raid10要好。原因是校驗操作是在 cache 裡面做的。

10個盤的情況下,一步可以完成9個資料+1個校驗位的寫入,而raid10只能寫入5個資料+5個映象。這一點在盤越多的情況下就越明顯,盤不多就看不太出來。而在隨機寫的情況下,一次寫能不能填滿乙個 raid5的條帶,這要看臉,cache 命中,湊在一起就快很多,不命中就慢很多,所以 cache 就非常重要了,隨機讀寫的越小越頻繁,這點就越能體現,raid5非常非常依賴卡和cache。

如果卡不好 cache 不好那麼寫懲罰會非常非常嚴重,寫入效能嚴重低下,低到沒法用的程度。

但是哦。。。raid5在生產環境中問題非常的多,重建的時候容易掉盤,很多資料災難都是 raid5引起的,你的卡過得去,有bbu ,最好再來個靠譜的 ups,那麼還可以考慮,否則基本上想都不用想。總之你要是有一顆強大的心臟那就大膽上好啦。

然後是 raid6,raid6是n-2張盤的容量,那個2的空間是拿來存校驗的,隨便掉兩個盤安全。和 raid5類似。但是因為他多拿了一張盤做校驗,而演算法麻煩的多,控制器工作量很大,中低端卡基本上都不能很好的處理這種 raid 形式,做出來後會發現讀寫效能差raid5不少。

非常看中 cache,非常看中你的 raid 卡。容量不好,效能也不好,可靠性提高了,一般用在資料庫上。。。然後你看看用不用吧。。。

然後更加高階的。。。。。。。。。

raid50,顧名思義兩個 raid5然後做了個 raid0。那麼空間和盤數就不贅述了。效能好,尤其是隨機寫效能比raid5好一些,安全性也好些。

就是空間稍微浪費一點。然後還非常依賴你的 raid 卡的效能以及 cache。

raid60.。。。。我不說了,反正你肯定不會用。

所以啦總結下,從可行角度看:

卡不好,cache 不行,甚至是軟的 raid,不在乎損失空間那麼就: raid10。一半空間,n/2的寫速度(raid1),n 的讀速度(raid0)。

卡很好,cache 還行,有 ups,raid5。n-1空間,n-1倍的連續寫,隨機寫實際情況就比較看 cache 了,接近 n 倍的讀(raid0)。

稍微損失點空間,卡非常好,cache 非常行,有 ups,上 raid50。只要條件夠了,這個很好。

從不折騰不挖坑角度看:

不折騰不挖坑:raid10

大折騰不挖坑:raid50

小折騰挖小坑:raid5

從使用場景看,盤多的時候:

連續寫卡很好:raid50>raid5>raid10

連續寫卡好:raid5>raid50>raid10

隨機寫卡很好:raid50>raid5>raid10

隨機寫卡好:raid10>raid50>raid5

其中 raid5、50 和 raid10 的效能差異,盤越多越能看出來,盤的數量會影響很大,盤少甚至會反超,那就是另外乙個故事了。

從空間看:

raid5>raid50>raid10

成本、風險、效能的最優選擇:raid50

另外如果你的卡支援,而且可以公升級硬體,加個小的 ssd 做cache cade,那麼對於隨機讀寫會非常棒。

綜上所屬,你條件夠就優先上 raid50,效能空間都很好,條件不夠就 raid10。條件一般心臟強大就 raid5。

另外盤我推薦你買日立 、 wd 的。珍愛生命、遠離希捷。

然後 raid 卡推薦買9361-16I這個級別以上的,dell 的對應卡也可以。

2樓:木頭龍

做RAID方案一般都是公司自己的運維,通過借用/小批量採購自行測試或者諮詢廠商的方式了解實際效能,並且結合自己公司的容量要求、資料安全要求、預算,來選擇乙個平衡點。

不過既然已經是10個4T HDD,只能簡單建議一下:

1、如果中間資料不重要,隨時可以重新訓練或者最終訓練結果資料有另外備份的話,做RAID 0。讀寫速度都最快,RAID卡速度夠的話,10倍於單盤的連續讀寫效能。缺點是資料不安全,掛乙個盤就全掛。

容量是40T

2、資料相對重要,如果掛乙個盤有足夠的儲存資源先備份再重建的話,RAID 5;10x4T的話,掛乙個盤之後有一定概率重建失敗,只能清除掉從備份恢復資料,寫入效能看RAID卡運算速度。另外隨機讀寫、併發讀寫效能都比較差。容量是4*(10-1)=36T

3、資料很重要,上RAID 6。掛一塊盤還有RAID 5,重建失敗的概率可以忽略。效能可以參考RAID 5。容量是4*(10-2)=32T

4、資料很重要,隨機讀寫效能也不能忽視:做5對RAID 1,然後做成乙個RAID 0,也就是RAID 10。容量是4*10/2=20T。

如果上述方案的效能都不接受,可以考慮增加SSD Cache,資料讀寫都先寫入SSD。不過有的RAID 卡要求雙SSD做RAID 1(避免單塊SSD失效的時候資料丟失)。而且通常接RAID卡的SSD都是SATA介面,單個SSD或者兩個SSD組成的RAID 1 Cache和10塊HDD的RAID 10相比,持續讀寫效能受限於介面速度通常沒啥優勢。

不過隨機寫入效能好得多,隨機讀取要看命中率。

3樓:nihaowhut

糾正一點,寫model的頻率非常低,時間幾乎可以忽略不計,主要是讀資料。另外耗時的是各節點的通訊。單機的話我們用ssd,集群不了解。

深度學習伺服器配置 4 5w預算 ?

itsAndy 其實也可以考慮租用GPU伺服器,比如我們現在沒法回學校,就在智星雲租用的GPU,不用自己配置,有什麼需求就租什麼樣的GPU,自己不需要花精力配置。 馬維春 深度學習伺服器,主要效能取決於GPU效能,其次是CPU和記憶體效能。1.GPU選擇 如果是用來開發學習使用的深度學習工作站 伺服...

推薦一款適合深度學習的GPU伺服器?

麗台科技 如果預算充足的話,可以考慮NVIDIA DGX系統,比如NVIDIA DGX A100,它採用的是全球超強大的加速器NVIDIA A100 Tensor Core GPU,能讓企業將深度學習訓練 推理和分析整合至乙個易於部署的統一 AI 基礎架構中。WinFast 工作站和伺服器 Lead...

預算10萬,如何配置機器學習伺服器?

nymbian 題主令我很迷惑的地方就是 一邊強調 對CPU多執行緒的要求也較高 反手就選了2640v4這種弱雞 多執行緒連臭打遊戲U 9900k都打不過 2011 3已經是老古董了 可以考慮下3647平台 雖然雙路被yes家單路秒 但至少比2011 3強 高鵬 僅代表個人觀點,僅供參考 放棄購置新...