資料分析師需要學習hadoop等大資料知識嗎

時間 2021-05-12 03:04:30

1樓:踏實的小麥

資料分析是方法

hadoop是工具,用於解決海量資料的處理,資料未到達一定規模使用hadoop是不明智的

分析建模過程中多半使用的小量的彙總資料

2樓:數大招瘋

有hadoop平台的公司,一般也會提供Hive、Hue、zeppelin之類的工具給分析師,可以直接寫sql處理資料。hadoop目前最主要的是提供分布式儲存能力,主要是大資料工程師需要掌握,分析師感興趣的話,也可以了解下。

3樓:九道門聊資料

HADOOP分布式其實在分析師這個崗位上用的比較少,了解就可以了,因為現在分布式這塊大公司都有現成的工具用,連搭建都不需要,直接用就可以了,非常方便。

4樓:IN科技

看公司規模,和人員分工。一般來講,資料崗位分為資料分析工程師,資料探勘工程師,資料開發工程師,資料運維工程師和演算法工程師。

一般崗位深度,從業務層逐漸往下。資料分析工程師除了要動資料本身價值,還要掌握一些資料探勘方法,比如python裡的常用類庫,numpy,pandas,包括一些簡單的分類、聚類等。

規模較大的企業,會把很多任務具開發好,只需要在IDE上寫對應指令碼就好,例如寫一些一般sql、jupyter上寫一些簡單指令碼,簡單計算,順便圖形化等。但是小規模公司,角色劃分沒那麼清楚,可能就需要資料分析師不單單會寫一些簡單sql,用用excel。

hadoop裡yarn、hdfs原理不用過多了解,但是基本的資料儲存格式,和資料拉取融合的方式要有了解。需要熟悉各種的OLAP,否則,乙個資料分析師,基本的資料儲存位置和儲存格式都搞不清楚,很難和資料開發同學溝通。

最後一點,極多不壓身,自己掌握的東西足夠多,籌碼才會比較大。多學習,沒什麼壞處的

5樓:千鋒好程式設計師

傳統的統計分析,是先有總體,再有資料,即必須先確定總體範圍和個體單位,再收集個體資料,分析總體。但對大資料來說,情況完全不同了,是先有資料,再有總體。從某種意義上說,大資料的產生系統多數是非總體式的,即無事先定義的目標總體,只有與各個時點相對應的事後總體,原因就在於個體是不確定的,是變化著的,是無法事先編制名錄庫的,這與傳統的總體與個體有很大的不同。

更為複雜的是,事後個體的識別也很困難,因為同乙個個體可能有多個不同的網路符號或稱謂,而不同網路系統的相同符號( 稱謂) 也未必就是同乙個個體,而且還經常存在個體異位的情況( 即某乙個體利用另乙個體的符號完成某種行為) ,因此我們對於大資料往往是只見「資料」的外形而不見「個體」的真容。但對大資料的分析,仍然有乙個總體口徑問題,依然需要識別個體身份。這就需要我們改變總體與個體的定義方式———儘管它們的內涵沒有變。

與此對應,如果要從大資料庫中提取樣本資料,那麼樣本的定義方式也需要改變。當然,考慮到大資料的流動變化性,任何時點的總體都可以被理解為乙個截面樣本。

儘管用於收集和分析資料的統計技術已相對成熟、自成體系,但其所能處理的資料量是有限的,面對不可同日而語的大資料、特別是其中大量的非結構化資料,恐怕單憑一己之力是難以勝任的,只能望「數」興嘆。首先遇到的問題就是計算能力問題,這就要求我們在不斷創新與發展統計技術的同時,還要緊緊依靠現代資訊科技、特別是雲計算技術。雲計算技術主要包括虛擬化、分布式處理、雲終端、雲管理、雲安全等技術,或者說以程式設計模型、資料儲存、資料管理、虛擬化、雲計算平台管理等技術最為關鍵。

借助雲計算技術可以將網格計算、分布式計算、平行計算、效用計算、網路儲存、虛擬化、負載均衡等傳統計算機技術與現代網路技術融合起來,把多個計算實體整合成乙個具有強大計算能力的系統,並借助 SaaS、PaaS、IaaS、MSP 等商業模式把它分布到終端使用者手中。雲計算的核心理念就是不斷提高「雲」處理能力來減少使用者終端的處理負擔,使使用者終端簡化成乙個單純的輸入輸出裝置,並能按需享受強大的「雲」計算處理能力。可見,統計技術與雲計算技術的融合是一種優勢互補,只有這樣統計技術才能在大資料時代一展身手、有所作為,才能真正把統計思想在資料分析中得到體現,實現統計分析研究的目的。

資料分析師需要哪些技能?

姑蘇城外漫天飛 有句話叫做,工具和技能都是關鍵,這些都是可以培養的。關鍵在於你是否有乙個資料分析的思維能力和想法 當然,作為資料分析師,基本的技能包括了SQL,BI工具,Python 基於這樣,資料分析的是核心在於,資料敏感性,業務資料發掘能力,資料指標體系搭建,分析框架搭建,和各個部門的溝通能力,...

資料分析師需不需要報班學習?

如果你覺得自己足夠自律,遇到問題可以及時解決,可以自學。但是如果想快速提公升自己的實操能力建議可以報班,畢竟和相同興趣的小夥伴一起學習更加有氛圍一些,有問題也可以隨時問老師,不會浪費太多的時間。培訓機構靠不靠譜,最明顯的就是看學員的就業情況了,培訓機構的存在就是為了彌補實操能力不足,模擬專案多些,有...

資料分析師 CDA 和資料專案分析師(CPDA 的區別?在認證方面有什麼不同嗎?

nicygyang 演算法或開發類的證書一般用處不大,靠證書入行還不如去刷kaggle比賽。實在想證書,推薦20年新出的谷歌tensorflow developer認證,coursera有prof.安德魯吳他們廠子的配套培訓課程,你上完prof.吳的deep learning專項再去上這個課比較好。...