如何合理地在乙個伺服器上儲存大資料

1樓：阿泰

美國會把資料怎麼處理，我覺得他能把資料庫檔案放到淺海裡降溫，這是速凍法，資料庫肯定也得處於一種習慣和使用方法還有使用次數限制，那就整個特大號的放進海浬降溫存屬，衛星發射，把晶元放到太空，大資料平台分析資料，多發點衛星

2樓：聽說

通俗的講儲存就是把資訊以0和1的狀態儲存起來，用電子表現的形式是高電壓和低電壓，或者是開和關。在光碟裡是用凹凸來表示的，當雷射頭射在光碟上的時候，光線經過凹凸的表面反射的光線也不一樣，計算機識別後用高低不同的電壓表示凹凸的表面，這樣光碟的資訊就轉換成了電訊號。

3樓：

我們通常認為這是乙個比較典型的資料優化問題。但是你這個要求並不太清楚。

還是簡單的分析一下怎麼做吧。

明確自己的查詢是什麼樣的要求，是單一條件查詢，還是多條件查詢。

明確自己的返回資料是什麼樣的要求，是只返回唯一資料，還是要返回多條資料。

明確自己的查詢最低容忍時間。

匯入資料測試，並使用explain分析。

優化資料庫伺服器配置

再測試。

如果你這是簡單的關係型資料，並且索引簡單明瞭，能放到記憶體裡去，我可以明確的告訴你，沒有乙個資料庫能做到比fseek/fread快。但是也不會慢太多。因為其它別的資料庫也差不多要呼叫原生的c方法。

如果你再考慮到硬碟的儲存情況，做到分檔案儲存，那c肯定是最快的。

但是如果你這是乙個相對複雜的查詢，就是另外一件事了。

首先，在現有的資料庫裡，我了解的Postgresql本身在處理關係型資料上，表現得相當不錯。只要你做一定的針對性優化，表空間分割槽，表索引，資料庫記憶體，併發數量。另外你這台伺服器的CPU不能太差了。

另外可以考慮一下HBase，這東西的目標就是要處理大資料。雖然它的一般效能比Postgresql要差一些，但是在大資料的表現上要比Postgresql穩定。

不過一定要記得，調優是根據業務來的，同時要結合理論。

還有就是我最近正在研究Dgraph，從它的設計上來講，這種資料，應該也有不錯的效能。

不過我沒試過，不好說。

4樓：Harry Zhu

以前前東家在EMEA區域的兩個庫，乙個1.7TB，乙個1.3TB，都是在同一臺sql server上面，維護起來誰也不敢動手做架構遷移改動重新設計這種出人命的亂規劃的，就放在那裡一直使用，縫縫補補好幾年了，一直都工作得挺正常；一般而言，我們的經驗是sql server在庫超過500GB之後，效能在測試的時候會有乙個較大的下降，但是在實際使用中，即使下降了，關聯應用也還是沒有明顯感知.

當時是伺服器是兩台較老的HP ProLiant的機器，雙路至強，64GB記憶體，10000K的sas硬碟，做得raid 5，幾年都好好的，後來有預算公升級了，開始流行ssd了，以天價換成了ssd，但使用上並沒有想象中的IO絲滑秒殺現在的感覺，所以在另外idc的更換計畫就還因此做了修改

我的建議是：如果有較龐大的開發團隊+運維團隊，就可以去考慮分庫分表，否則人少的情況下架構搞複雜了，最終可能得不償失；

會有很多人建議你分庫分表提早規劃，本身這沒有什麼錯，但從工程的角度來說，各個資料庫沒有我們想象的那麼弱，有時候複雜度的增加是各種關聯問題的罪魁禍首，從省錢的角度而言，越簡單越好維護，等到賺到錢了再考慮招人來專門做優化

5樓：「已登出」

關係型資料庫完全沒問題

曾經16核心E5 2620 V3 V4，64G超過2T mysql，完全沒問題啊，磁碟效能足夠好，優化足夠到位就可以

我現在用postgresql，索引型別更多，記憶體不敏感，現在資料100G+，16核RDS，索引優化到位，cpu使用率基本上50%下

說白了還是看你怎麼用，硬碟必須PCIE SSD，避免全表掃瞄，多命中索引，關係型資料庫還是沒問題的

建議還是寫的細緻點兒

6樓：孟攀飛

1T資料量，真應該分布式儲存+計算了。

你這情況，單機多核，儲存分布不了，單機最好的處理方案就是Pandas。

你有多核，用Modin把多核利用起來提提速。

7樓：Seven0007

redis、hbase這種列式Nosql資料庫肯定是比傳統關係型資料庫快。

但是你redis只能根據你的key查詢。hbase你得有自己的大資料集群。

也可以考慮一下ES

8樓：

取決於你資料的訪問頻率

給你資料分類，那些熱資料，每小時成千上萬次訪問的，使用記憶體資料庫。

冷一些的資料，存硬碟或者物件儲存都可以。

你如果只是想要快，那就無腦全存記憶體裡面。

如何合理地在乙個伺服器上儲存大資料

如何高效地管理乙個50多台伺服器的集群？

如何測試乙個伺服器模型的最大併發度？

如何選購組裝乙個用於科學計算的伺服器？

其他用戶還看了：