想問下大資料開發的大佬搭建個資料平台需要學習哪些？

1樓：加公尺谷大資料老師

目前來說，企業級的大資料平台開發，可選的技術框架很多，這些也都是大資料開發者的技能點。大資料平台的通用架構，通常包括資料傳輸、資料儲存、資料計算、資源管理等多個層面。

資料傳輸層

Sqoop：支援RDBMS和HDFS之間的雙向資料遷移，通常用於抽取業務資料庫（比如MySQL、SQLServer、Oracle）的資料到HDFS。

Flume：用於海量日誌採集、聚合和傳輸，將產生的資料儲存到HDFS或者HBase中。

Flume+Kafka：滿足實時流式日誌的處理，後面再通過Spark Streaming等流式處理技術，可完成日誌的實時解析和應用。

資料儲存層

HDFS：分布式檔案系統，它是分布式計算中資料儲存管理的基礎，可部署在廉價商用機器上，具備高容錯、高吞吐和高擴充套件性。

HBase：分布式NoSQL KV資料庫，利用HDFS作為其檔案儲存系統，適合大資料的實時查詢（比如：IM場景）。

資源管理層

Yarn：Hadoop的資源管理器，負責Hadoop集群資源的統一管理和排程，為運算程式（MR任務）提供伺服器運算資源（CPU、記憶體），能支援MR、Spark、Flink等多種框架。

資料計算層

①離線計算框架

MapReduce：面向大資料並行處理的計算模型、框架和平台。

Hive：乙個資料倉儲工具，能管理HDFS儲存的資料，可以將結構化的資料檔案對映為一張資料庫表，並提供完整的SQL查詢功能，適用離線非實時資料分析。

Spark sql：引入RDD（彈性分布式資料集）這一特殊的資料結構，將SQL轉換成RDD的計算，並將計算的中間結果放在記憶體中，因此相對於Hive效能更高，適用實時性要求較高的資料分析場景。

②實時計算框架

Spark Streaming：實時流資料處理框架，可以接收Kafka、Flume、HDFS等資料來源的實時輸入資料，經過處理後，將結果儲存在HDFS、RDBMS、HBase、Redis、Dashboard等地方。

Storm：實時流資料處理框架，真正的流式處理，每條資料都會觸發計算，低延遲（ms級延遲）

Flink：更高階的實時流資料處理框架，相比Storm，延遲比storm低，而且吞吐量更高，另外支援亂序和調整延遲時間。

2樓：starsvr

Apache Hadoop

Unified Analytics Engine for Big Data

8，半年後，你應該不是菜鳥了。

我想問一下關於大資料開發前景如何？

加公尺谷熊老師大資料開發的前景，這兩年其實是進入乙個比較平穩的發展階段了，但是相關崗位的熱度依然不減。大資料開發的主要崗位需求，還是集中在大公司比較多，越是大公司，擁有的資料越多，對資料開發人員的需求也越旺盛。就以今年的疫情影響來說，包括BAT在內，大小企業很多崗位都暫停招聘，或者減少HC，也不乏...

我是大資料專業的，想問問各位大佬我應該考取哪些證書比較有用？

既然是這個大資料專業的，當然就是CPDA資料分析師證書了。不過，證書永遠是學習知識的副產品，不要把考證書作為自己學習的目的，因為證書是在你學習結成果實之後，自然而然就能拿到的東西。有證書不代表你的真正水準，證書只是表示，你已經擁有取得這個證書的能力，再這個證書的知識體系內，你已經達標了。所以，輕證書...

想問下各位大佬這個配置的電腦，玩英雄聯盟都卡，是啥原因啊？怎麼改善？

JD丶配置都沒多重要，英雄聯盟不怎麼吃配置，最最最最關鍵換個好點的寬頻叭！我是有切身體會的，而且英雄聯盟伺服器本身就不怎麼滴，你的網速好與不好直接影響遊戲體驗，18的ping跟50的ping 玩起來兩種感覺對於我這種6年老玩家來說再有每個區的ping都不一樣，比如說我玩三區開不開Tgp都是四五...

想問下大資料開發的大佬 搭建個資料平台需要學習哪些？

我想問一下 關於大資料開發前景如何？

我是大資料專業的，想問問各位大佬我應該考取哪些證書比較有用？

想問下各位大佬這個配置的電腦，玩英雄聯盟都卡，是啥原因啊？怎麼改善？

其他用戶還看了：

想問下大資料開發的大佬搭建個資料平台需要學習哪些？

我想問一下關於大資料開發前景如何？