還有必要學習Hadoop 麼？

1樓：多易教育

要學的！！！如果僅是針對Hadoop這個大資料框架而言，Hadoop 2.0解決了以下幾個問題：

海量資料儲存即HDFS（Hadoop分布式檔案系統）、海量資料計算即MapReduce（分布式計算程式設計模型）、資源排程平台即YARN（YARN上也可以執行其他程式設計模型的程式如：Spark、Storm、Flink等）。如果泛指Hadoop，通常指的是Hadoop生態圈，裡面包含了很多技術體系，如Hbase、Hive、ZooKeeper、Flume、SQOOP等。

如果Spark要和Hadoop進行對比，其實有一點不太恰當，嚴格的Spark是乙個計算框架，要跟Hadoop比的是也是MapReduce。其實Spark是站在巨人的肩膀（MR），同時吸取了MR的優點和優化了MR的缺點。很多原理性的設計思想還是差不多的。

Spark在大部分場景下，的確比MapReduce快，並且Spark即可做離線計算，又可以做實時計算，還可以做圖計算和機器學習。

Spark是僅乙個計算框架，不能儲存資料，大資料領域儲存離線資料用的比較多的還是HDFS。

很多企業中通常也是將Spark程式打好包，然後跑在YARN上的，因為相比Spark的standalone模式，YARN更成熟，資源隔離更好！

所以，對於初學者，還是建議先學Hadoop，然後再學Spark！！！並且Hadoop3.0穩定版也release了，有很多新特性，也是值得好好研究的

2樓：

spark的計算框架確實比hadoop得mr強大得多，但是就如之前幾位的回答一樣，hadoop現在不只是mr計算框架了，他是乙個全家桶，說spark是這個全家桶裡面的乙個大雞腿也不為過。

退一萬步講，就算hadoop只有mr，spark也不可能代替他，在某些領域資料是以PB為基礎算得，spark記憶體計算模型不一定能夠吃得下。

3樓：Michael Liu

考慮到scala的學習成本，大規模離線日誌還是用MapReduce處理，而需要迭代計算的機器學習模型會越來越多的使用spark訓練，但hdfs的生命週期會很長。hadoop還有很多適用的場景，多學點總歸是好的，不要「書到用時方恨少」啊。

4樓：Reid Chan

不要太浮躁了

這種有用無用論

就好像「現在fp突然火了我還要學oop嗎」的即視感網際網路泡沫真的離不開一群浮躁的碼農最近這裁員縮招真是幹得漂亮計算框架而已工具而已

適用場景不一樣

只是spark怒吞了一大片服務和使用場景

spark值得學

但問學hadoop還有必要嗎不予回答

5樓：

一代確實可以放一放，但你要是以為二代Hadoop還是之前的Hadoop那可就不對了

說白了Hadoop是乙個Apache一堆雲計算套件的全家桶，並且由YARN做了大一統

其中hdfs提供雲儲存，yarn在此之上提供計算資源的統一管理，mr以及spark什麼的都是跑在yarn上面的應用，所以你用hadoop來和spark比，就相當於用windows和office比，沒有什麼道理的

至於學什麼，就看你的興趣點是在資源框架，還是在計算框架了

還有必要學習Hadoop 麼？

學習vue js，還有必要學jQuery 麼？

還有必要學習爬蟲嗎？

這段感情，還有必要挽回麼？

其他用戶還看了：