大資料的處理(雲計算)中有哪些棘手的技術問題有待解決?謝謝

時間 2021-06-05 14:30:59

1樓:張云聰

Hadoop裡出現慢機器節點的問題可以通過一種被稱作」推測執行「的方案解決的,大致思想就是計算出其它節點計算耗時,如果某結點用時明顯比其它多時,可能會多啟動一些計算單元對同樣的資料同時計算,誰先完成就採用誰的結果。

如果Partition不均一般就需要自己想辦法將Partition拆分均勻了,或者有時候寧願去多新增一輪MR也要避免Partition不均。

據說還有一些動態Partition方法,不過我沒怎麼接觸過具體的應用,不多做評說。

hive的許多優化都是為了解決資料傾斜的,可以參考一下阿里的這篇 資料傾斜總結

我是搞流式計算的,接觸到的更多是流式計算裡的問題,在流式計算裡這個問題就更為複雜了,特別是流式計算裡的計算單元帶狀態的時候,計算單元遷移、重啟成本較高,而且因為狀態也做過partition,就導致更改併發數更為困難,目前我們只有想辦法盡可能的讓Worker不帶狀態,或帶的狀態較小使其遷移成本降低,再或者就是使用全域性儲存維護乙個全域性狀態。

雲計算,大資料資料安全和隱私保護,如何系統來學習?

井鮮障 對於雲計算和大資料的網路安全問題,我們通過學習密碼技術與資料標識,採用信任管理 訪問控制 資料加密 可信計算 密紋檢索等技術手段,構建傳輸 分析 應用為一體的資料安全體系,這樣可以有效地解決隱私保護 資料來源真實 防身份假冒等問題。個人認為非常重要的一點就是學習防禦黑客與資料管理知識。在通過...

大資料與雲計算之間的關係是怎樣的?

用心閣 大資料的本質就是利用計算機集群來處理大批量的資料,大資料的技術關注點在於如何將資料分發給不同的計算機進行儲存和處理。雲計算的本質就是將計算能力作為一種較小顆粒度的服務提供給使用者,按需使用和付費,體現了 經濟性,不需要購買整個伺服器 快捷性,即刻使用,不需要長時間的購買和安裝部署 彈性,隨著...

計算機研究生應該選雲計算還是大資料?

這要看你讀研的目標是為了找工作還是投身科研。如果志向是找份好工作的話,選大資料方向比雲計算更有前途。大資料方向更接近商業落地的場景,對口的企業和崗位更多,找工作相對容易一些。雲計算方向對應的比較不錯的企業,呃,乙隻手都能數得過來,就業比較窄。換個角度說,大資料的學習資料和實驗場景更容易獲取,能夠以個...