還有必要學習Hadoop 麼?

時間 2021-06-01 03:41:17

1樓:多易教育

要學的!!!如果僅是針對Hadoop這個大資料框架而言,Hadoop 2.0解決了以下幾個問題:

海量資料儲存即HDFS(Hadoop分布式檔案系統)、海量資料計算即MapReduce(分布式計算程式設計模型)、資源排程平台即YARN(YARN上也可以執行其他程式設計模型的程式如:Spark、Storm、Flink等)。如果泛指Hadoop,通常指的是Hadoop生態圈,裡面包含了很多技術體系,如Hbase、Hive、ZooKeeper、Flume、SQOOP等。

如果Spark要和Hadoop進行對比,其實有一點不太恰當,嚴格的Spark是乙個計算框架,要跟Hadoop比的是也是MapReduce。其實Spark是站在巨人的肩膀(MR),同時吸取了MR的優點和優化了MR的缺點。很多原理性的設計思想還是差不多的。

Spark在大部分場景下,的確比MapReduce快,並且Spark即可做離線計算,又可以做實時計算,還可以做圖計算和機器學習。

Spark是僅乙個計算框架,不能儲存資料,大資料領域儲存離線資料用的比較多的還是HDFS。

很多企業中通常也是將Spark程式打好包,然後跑在YARN上的,因為相比Spark的standalone模式,YARN更成熟,資源隔離更好!

所以,對於初學者,還是建議先學Hadoop,然後再學Spark!!!並且Hadoop3.0穩定版也release了,有很多新特性,也是值得好好研究的

2樓:

spark的計算框架確實比hadoop得mr強大得多,但是就如之前幾位的回答一樣,hadoop現在不只是mr計算框架了,他是乙個全家桶,說spark是這個全家桶裡面的乙個大雞腿也不為過。

退一萬步講,就算hadoop只有mr,spark也不可能代替他,在某些領域資料是以PB為基礎算得,spark記憶體計算模型不一定能夠吃得下。

3樓:Michael Liu

考慮到scala的學習成本,大規模離線日誌還是用MapReduce處理,而需要迭代計算的機器學習模型會越來越多的使用spark訓練,但hdfs的生命週期會很長。hadoop還有很多適用的場景,多學點總歸是好的,不要「書到用時方恨少」啊。

4樓:Reid Chan

不要太浮躁了

這種有用無用論

就好像「現在fp突然火了我還要學oop嗎」的即視感網際網路泡沫真的離不開一群浮躁的碼農最近這裁員縮招真是幹得漂亮計算框架而已工具而已

適用場景不一樣

只是spark怒吞了一大片服務和使用場景

spark值得學

但問學hadoop還有必要嗎不予回答

5樓:

一代確實可以放一放,但你要是以為二代Hadoop還是之前的Hadoop那可就不對了

說白了Hadoop是乙個Apache一堆雲計算套件的全家桶,並且由YARN做了大一統

其中hdfs提供雲儲存,yarn在此之上提供計算資源的統一管理,mr以及spark什麼的都是跑在yarn上面的應用,所以你用hadoop來和spark比,就相當於用windows和office比,沒有什麼道理的

至於學什麼,就看你的興趣點是在資源框架,還是在計算框架了

學習vue js,還有必要學jQuery 麼?

鏽材 新手,先學精通V R,A這類應用框架,先搬一回磚.深入學習後,看V,R,A的原始碼,精通原生JS的精髓,畢竟不管哪個框架,最後都是被編譯成原生JS在瀏覽器中執行的.HTML CSS JS這三劍客已經是20年的產物,當你遇到元件解決不了的事,還得回到根本上去解決問題.Jquery並沒有完全被淘汰...

還有必要學習爬蟲嗎?

jymao 有必要的。目前國內的各個平台,在資料方面越來越封閉,都在通過各種反爬技術,努力把公共資料私有化。但是,很多非平台方,在自身的業務場景裡都需要在這些公共資料上做深入挖掘。這種供需背景下,對這種公共資料的需求相對強烈。具體來說,譬如市場分析 諮詢公司,我們曾經給一家輪胎行業的諮詢公司提供過線...

這段感情,還有必要挽回麼?

晴天有雨 這男的一直在偷換概念,一直在灌輸給你乙個觀念就是把孩子丟給你父母是為了你和他的未來,但是仔細想想,如果不是因為他,換成任何乙個沒有這樣大的負擔的男的,你和你父母本來就不用承擔這些,他理直氣壯把自己應該安排好承擔好的責任丟給你的父母,他自己的父母都不想帶著個孩子卻希望你的父母理所應當的來付出...