大資料hadoop和spark怎麼選擇

1樓：Statham

Hadoop發展的比較早，是乙個大資料層面的批處理框架，能夠把很多效能一般的計算機組成分布式儲存和計算集群，極大的節約成本。Spark是後來發展起來的流式計算處理框架，特點是使用記憶體進行計算和處理，所以效率比hadoop高很多，但也比較底層，需要手動的寫mr。Flink則整合了hadoop和spark的優點，計算快，開發快，社群維護的也不錯。

我覺得可以先從Flink開始搭建應用，然後在輔以hadoop和spark的底層技術來深挖大資料處理框架的原理。

2樓：zoombeet

Hadoop 是乙個批處理的系統框架，批處理系統一般都是處理確定大小的資料，所以hadoop 適合處理海量的歷史資料因為這些資料已經存在了而且批處理的效率和速度也比較好。Spark 是乙個流處理的系統框架，流處理系統一般都是要處理實時的不確定大小的資料的，所以spark 適合處理實時的資料量較小的資料。根據需求不同可以選擇兩個系統。

3樓：PandOne

都要學，流式計算的基礎其實就是批計算，先學批計算再學流，handoop和spark你其實沒有理清之間的關係和什麼東西，先了解一下他們的歷史背景和基本概念再來看，你就不會問這個問題了。

4樓：

那肯定是spark了，PySpark介面外加dataframe的操作方式，讓PySpark可以像pandas一樣方便使用。Spark裡面可以實現從data query （SQL），data transformation, machine learning, deployment。所以spark現在還是很強大的。

Hadoop的話周圍沒見到有人直接寫Hadoop，相比於spark，Hadoop還是挺難的。

所以建議優先學Spark，之後如果有需要，可以進一步學習Hadoop

5樓：cgkbfrd

公司一般會把這兩種引擎都接入，具體使用哪乙個會看業務需求。通常Spark會基於Hadoop的HDFS讀取資料進行處理，基於Hadoop的Yarn做任務排程。

Hadoop=HDFS（儲存）+Yarn（任務排程）+MapReduce（批量計算）

Spark = SparkCore（底層核心計算邏輯）+SparkSQL（基於SQL的任務提交）+SparkStreaming（近實時處理）+Spark Structured Streaming（近實時處理）+SparkMLib（機器學習）

6樓：HashMap

兩個都要學的東西。。spark是現在的主流，可以多看看。其實挺簡單的，離線處理就是寫sql。sparkstreaming微批次很好用，建議多看看！

7樓：青牛

兩者在大資料應用當中都啟著非常重要的作用。Hadoop在大資料分析中被廣泛應用，也可以與Spark相結合提高其實時計算分析能力。

第一，Hadoop 和Spark 兩者都是大資料中常用的框架，但解決問題的層面和方向有所不同。Hadoop更多是乙個分布式資料基礎設施，將巨大的資料集分派到乙個由普通計算機組成的集群中的多個節點進行儲存，節省了硬體成本，而Spark，則是那麼乙個專門用來對那些分布式儲存的大資料進行處理的工具，依賴於分布式資料儲存。

第二， Spark要比Hadoop的MapReduce計算速度快很多。Spark會在記憶體中以接近「實時」的時間完成所有的資料分析，從集群中讀取資料，完成所有必須的分析處理，將結果寫回集群。對於動態資料實時分析而言，Spark要比Hadoop效能較為優越。

比如實時的市場活動、網路安全分析等方面的應用。

除以之外，建議再學習涉獵Flink。

8樓：你若成雨

你沒得選

hadoop是大資料生態的基礎框架，spark是計算框架，hadoop雖然也有計算框架mapreduce，但是這個不是慢嘛

大資料hadoop和spark怎麼選擇

spark的shuffle和Hadoop的shuffle（mapreduce 的區別和關係是什麼？

Spark可以完全替代hadoop嗎？

資料分析師需要學習hadoop等大資料知識嗎

其他用戶還看了：