MapReduce過程中，如果Map之後每個Key對應Value的數量不平衡會不會影響效率？

1樓：markxiao

是的，相同的key是會發到同乙個reduce處理。如果相同的key對應的value量級太大確實會導致這個reduce很慢。如果其他的reduce要處理的資料相對較少，就會出現資料傾斜。

資料傾斜一般是指某乙個partitioner的處理的資料量遠大於其他的partitioner，這個在分布式系統中很常見。一般有兩種原因：(1)partition演算法不夠隨機，這種情況比較少見，換相對隨機的演算法就可以。

(2)某個key對應的資料非常多，而這個key對應的資料又必須傳送到同乙個partitioner進行處理。

對於第二種資料傾斜沒有乙個統一的處理方式，要看具體問題。一般常見的方式可以將key加乙個隨機擾動量，使得量大的這個key均勻分到不同的reduce中去處理。再起一輪mapreduce處理這次的結果，將key的擾動量去掉，去統計結果。

因為第一步reduce處理將key對應的結果大大減少了(題主這個case每個reduce乙個key只輸出一條記錄)，所以到第二輪mapreduce這個key對應的資料就很少了。

另外，如果乙個map輸出的相同的key記錄很多，可以加combiner進行map端的reduce，減少資料量。對於題主的這個case的資料傾斜應該也是有效的，前提是你這個量很大的key在所有的map中也相對均勻的。不然也會導致少量map執行特別久。

2樓：于曉龍

我記得在網上看到過類似解決方案。出現這種情況的話，可以在相同的key上做個二級標記，然後再選用合適的partion策略。比如單詞 we出現10w次，而其他單詞只出現幾次，那可以對we進行人為二級劃分，比如we-1，we-2.....

we99，we100。這樣雖然咱們知道key是一樣的，但是機器卻認為key不一樣。最後再增加個reduce進行規約。

3樓：qiqiqi

當然會影響效率，試想一下，如果極端情況，假設shuffle過程產生了100個Key，假設某個Key匯聚了10萬個值，而其它Key都匯聚了乙個值。巨集觀上看，幾乎所有資料不就都匯聚到乙個節點，集群豈不是變成了單機。Spark本身提供了兩種Key機制，Hash 和Range，另外還支援使用者自定義的Key型別。

針對不Key平衡的情況，可以考慮通過Range，把多個稀疏的Key值劃在乙個Key的範圍內，這樣可以保持Key的相對平衡。

MapReduce過程中，如果Map之後每個Key對應Value的數量不平衡會不會影響效率？

損傷修復過程中巨噬細胞如何從M1型向M2型轉化？

自學Javaweb過程中的煩惱？

交易系統的構建過程中交易的實際操作過程中，存在著什麼樣的理念思想作為指導

其他用戶還看了：

MapReduce過程中，如果Map之後每個Key對應Value的數量不平衡會不會影響效率？

損傷修復過程中巨噬細胞如何從M1型向M2型轉化？

自學Javaweb過程中的煩惱？

交易系統的構建過程中 交易的實際操作過程中，存在著什麼樣的理念 思想作為指導

其他用戶還看了：

交易系統的構建過程中交易的實際操作過程中，存在著什麼樣的理念思想作為指導