適合深度學習伺服器的RAID方案？

1樓：

你是大量寫，少量讀，不知道隨機還是連續。不過你既然提到了用於深度學習，那估計你需要很大的空間，全 ssd 方案成本上太高了。不建議使用。

另外你不想換硬體，但是卻沒有列舉你的硬體，尤其是 raid 卡。這個非常非常重要，是否有 cache，是否由 bbu，是否帶 cache cade（ssd 加速）這些你需要給出。以下建議均作為你採用了比較高階的硬 raid卡，有 bbu，有cache，不帶 cache cade 的情況下給出的。

另外這些建議只適用於機械盤，ssd 陣列是另外一種情況。

如果你能補充資訊自然更好。

基礎的。。。。。。。。。

首先看條帶 raid0， raid 0 你肯定是不能用，資料上沒有冗餘，而且掉一張盤就完蛋，10個4T 掉盤可能性又很高，所以raid0 用不得。

然後映象 raid1，raid1 讀速度這個其實看控制器，優化的好有n(n 為盤數,比如你的10張)的提速，優化的不好他會訪問所有的盤然後拿返回最快的那乙個資料。寫入並沒有什麼提高，那麼這個你寫的多讀的少自然沒法用。

稍微高階的。。。。。。。。。

然後看 raid10，在10個盤的時候，raid10就是一半的有效空間，掉第一張盤安全，掉第二張盤陣列會不會掛掉取決於掉的是那張盤。拿10個盤來做，理想情況下連續寫的速度是單盤的5倍，讀取速度是單盤的10倍（看控制器）。寫入速度、讀取速度都比較穩定。

raid10對cache 的依賴小很多，做軟 raid10也還能用。

高階的然後看 raid5，raid5 就是 n-1張的容量，那個1的空間是拿來存校驗的，掉乙個盤安全。在有足夠cache 、硬raid 卡的演算法沒問題的情況下，連續寫效能甚至比 raid10要好。原因是校驗操作是在 cache 裡面做的。

10個盤的情況下，一步可以完成9個資料+1個校驗位的寫入，而raid10只能寫入5個資料+5個映象。這一點在盤越多的情況下就越明顯，盤不多就看不太出來。而在隨機寫的情況下，一次寫能不能填滿乙個 raid5的條帶，這要看臉，cache 命中,湊在一起就快很多，不命中就慢很多，所以 cache 就非常重要了，隨機讀寫的越小越頻繁，這點就越能體現，raid5非常非常依賴卡和cache。

如果卡不好 cache 不好那麼寫懲罰會非常非常嚴重，寫入效能嚴重低下，低到沒法用的程度。

但是哦。。。raid5在生產環境中問題非常的多，重建的時候容易掉盤，很多資料災難都是 raid5引起的，你的卡過得去，有bbu ，最好再來個靠譜的 ups，那麼還可以考慮，否則基本上想都不用想。總之你要是有一顆強大的心臟那就大膽上好啦。

然後是 raid6，raid6是n-2張盤的容量，那個2的空間是拿來存校驗的，隨便掉兩個盤安全。和 raid5類似。但是因為他多拿了一張盤做校驗，而演算法麻煩的多，控制器工作量很大，中低端卡基本上都不能很好的處理這種 raid 形式，做出來後會發現讀寫效能差raid5不少。

非常看中 cache，非常看中你的 raid 卡。容量不好，效能也不好，可靠性提高了，一般用在資料庫上。。。然後你看看用不用吧。。。

然後更加高階的。。。。。。。。。

raid50，顧名思義兩個 raid5然後做了個 raid0。那麼空間和盤數就不贅述了。效能好，尤其是隨機寫效能比raid5好一些，安全性也好些。

就是空間稍微浪費一點。然後還非常依賴你的 raid 卡的效能以及 cache。

raid60.。。。。我不說了，反正你肯定不會用。

所以啦總結下，從可行角度看：

卡不好，cache 不行，甚至是軟的 raid，不在乎損失空間那麼就： raid10。一半空間，n/2的寫速度(raid1)，n 的讀速度(raid0)。

卡很好，cache 還行，有 ups，raid5。n-1空間，n-1倍的連續寫，隨機寫實際情況就比較看 cache 了，接近 n 倍的讀(raid0)。

稍微損失點空間，卡非常好，cache 非常行，有 ups，上 raid50。只要條件夠了，這個很好。

從不折騰不挖坑角度看：

不折騰不挖坑：raid10

大折騰不挖坑：raid50

小折騰挖小坑：raid5

從使用場景看，盤多的時候：

連續寫卡很好：raid50>raid5>raid10

連續寫卡好：raid5>raid50>raid10

隨機寫卡很好：raid50>raid5>raid10

隨機寫卡好：raid10>raid50>raid5

其中 raid5、50 和 raid10 的效能差異，盤越多越能看出來，盤的數量會影響很大，盤少甚至會反超，那就是另外乙個故事了。

從空間看：

raid5>raid50>raid10

成本、風險、效能的最優選擇：raid50

另外如果你的卡支援，而且可以公升級硬體，加個小的 ssd 做cache cade，那麼對於隨機讀寫會非常棒。

綜上所屬，你條件夠就優先上 raid50，效能空間都很好，條件不夠就 raid10。條件一般心臟強大就 raid5。

另外盤我推薦你買日立、 wd 的。珍愛生命、遠離希捷。

然後 raid 卡推薦買9361-16I這個級別以上的，dell 的對應卡也可以。

2樓：木頭龍

做RAID方案一般都是公司自己的運維，通過借用/小批量採購自行測試或者諮詢廠商的方式了解實際效能，並且結合自己公司的容量要求、資料安全要求、預算，來選擇乙個平衡點。

不過既然已經是10個4T HDD，只能簡單建議一下：

1、如果中間資料不重要，隨時可以重新訓練或者最終訓練結果資料有另外備份的話，做RAID 0。讀寫速度都最快，RAID卡速度夠的話，10倍於單盤的連續讀寫效能。缺點是資料不安全，掛乙個盤就全掛。

容量是40T

2、資料相對重要，如果掛乙個盤有足夠的儲存資源先備份再重建的話，RAID 5；10x4T的話，掛乙個盤之後有一定概率重建失敗，只能清除掉從備份恢復資料，寫入效能看RAID卡運算速度。另外隨機讀寫、併發讀寫效能都比較差。容量是4*（10-1）=36T

3、資料很重要，上RAID 6。掛一塊盤還有RAID 5，重建失敗的概率可以忽略。效能可以參考RAID 5。容量是4*（10-2）=32T

4、資料很重要，隨機讀寫效能也不能忽視：做5對RAID 1，然後做成乙個RAID 0，也就是RAID 10。容量是4*10/2=20T。

如果上述方案的效能都不接受，可以考慮增加SSD Cache，資料讀寫都先寫入SSD。不過有的RAID 卡要求雙SSD做RAID 1（避免單塊SSD失效的時候資料丟失）。而且通常接RAID卡的SSD都是SATA介面，單個SSD或者兩個SSD組成的RAID 1 Cache和10塊HDD的RAID 10相比，持續讀寫效能受限於介面速度通常沒啥優勢。

不過隨機寫入效能好得多，隨機讀取要看命中率。

3樓：nihaowhut

糾正一點，寫model的頻率非常低，時間幾乎可以忽略不計，主要是讀資料。另外耗時的是各節點的通訊。單機的話我們用ssd，集群不了解。

適合深度學習伺服器的RAID方案？

深度學習伺服器配置 4 5w預算？

推薦一款適合深度學習的GPU伺服器？

預算10萬，如何配置機器學習伺服器？

其他用戶還看了：

適合深度學習伺服器的RAID方案？

深度學習伺服器配置 4 5w預算 ？

推薦一款適合深度學習的GPU伺服器？

預算10萬，如何配置機器學習伺服器？

其他用戶還看了：

深度學習伺服器配置 4 5w預算？