想問下大資料開發的大佬 搭建個資料平台需要學習哪些?

時間 2021-06-21 15:09:49

1樓:加公尺谷大資料老師

目前來說,企業級的大資料平台開發,可選的技術框架很多,這些也都是大資料開發者的技能點。大資料平台的通用架構,通常包括資料傳輸、資料儲存、資料計算、資源管理等多個層面。

資料傳輸層

Sqoop:支援RDBMS和HDFS之間的雙向資料遷移,通常用於抽取業務資料庫(比如MySQL、SQLServer、Oracle)的資料到HDFS。

Flume:用於海量日誌採集、聚合和傳輸,將產生的資料儲存到HDFS或者HBase中。

Flume+Kafka:滿足實時流式日誌的處理,後面再通過Spark Streaming等流式處理技術,可完成日誌的實時解析和應用。

資料儲存層

HDFS:分布式檔案系統,它是分布式計算中資料儲存管理的基礎,可部署在廉價商用機器上,具備高容錯、高吞吐和高擴充套件性。

HBase:分布式NoSQL KV資料庫,利用HDFS作為其檔案儲存系統,適合大資料的實時查詢(比如:IM場景)。

資源管理層

Yarn:Hadoop的資源管理器,負責Hadoop集群資源的統一管理和排程,為運算程式(MR任務)提供伺服器運算資源(CPU、記憶體),能支援MR、Spark、Flink等多種框架。

資料計算層

①離線計算框架

MapReduce:面向大資料並行處理的計算模型、框架和平台。

Hive:乙個資料倉儲工具,能管理HDFS儲存的資料,可以將結構化的資料檔案對映為一張資料庫表,並提供完整的SQL查詢功能,適用離線非實時資料分析。

Spark sql:引入RDD(彈性分布式資料集)這一特殊的資料結構,將SQL轉換成RDD的計算,並將計算的中間結果放在記憶體中,因此相對於Hive效能更高,適用實時性要求較高的資料分析場景。

②實時計算框架

Spark Streaming:實時流資料處理框架,可以接收Kafka、Flume、HDFS等資料來源的實時輸入資料,經過處理後,將結果儲存在HDFS、RDBMS、HBase、Redis、Dashboard等地方。

Storm:實時流資料處理框架,真正的流式處理,每條資料都會觸發計算,低延遲(ms級延遲)

Flink:更高階的實時流資料處理框架,相比Storm,延遲比storm低,而且吞吐量更高,另外支援亂序和調整延遲時間。

2樓:starsvr

Apache Hadoop

Unified Analytics Engine for Big Data

8,半年後,你應該不是菜鳥了。

我想問一下 關於大資料開發前景如何?

加公尺谷熊老師 大資料開發的前景,這兩年其實是進入乙個比較平穩的發展階段了,但是相關崗位的熱度依然不減。大資料開發的主要崗位需求,還是集中在大公司比較多,越是大公司,擁有的資料越多,對資料開發人員的需求也越旺盛。就以今年的疫情影響來說,包括BAT在內,大小企業很多崗位都暫停招聘,或者減少HC,也不乏...

我是大資料專業的,想問問各位大佬我應該考取哪些證書比較有用?

既然是這個大資料專業的,當然就是CPDA資料分析師證書了。不過,證書永遠是學習知識的副產品,不要把考證書作為自己學習的目的,因為證書是在你學習結成果實之後,自然而然就能拿到的東西。有證書不代表你的真正水準,證書只是表示,你已經擁有取得這個證書的能力,再這個證書的知識體系內,你已經達標了。所以,輕證書...

想問下各位大佬這個配置的電腦,玩英雄聯盟都卡,是啥原因啊?怎麼改善?

JD丶 配置都沒多重要,英雄聯盟不怎麼吃配置,最最最最關鍵換個好點的寬頻叭!我是有切身體會的,而且英雄聯盟伺服器本身就不怎麼滴,你的網速好與不好直接影響遊戲體驗,18的ping跟50的ping 玩起來兩種感覺 對於我這種6年老玩家來說 再有每個區的ping都不一樣,比如說我玩三區開不開Tgp都是四五...