如何評價intel開源基於spark的深度學習庫BigDL

時間 2022-01-17 16:15:52

1樓:盈ying

1,科技日新月異,這個其實很正常。2,人玩遊戲的目的是取樂,職業賽事本來就是市場的產物。3,天下第一只是虛名,圍棋未必是銀河系最難的遊戲

2樓:AlfredXXfiTTs

BigDL相對於其他主流的深度學習框架(TensorFlow/Caffe/PyTorch),算是乙個異類。其異有二:

CPU純分布式(Spark)

雖然業界普遍不看好CPU跑深度學習,但實際上還是有需求的。比如,現有Hadoop集群的公司,復用現有集群來跑深度學習是最經濟的方案。

並且,充分優化後的CPU集群的效能還是挺可觀的。拿BigDL來說,MKL + 多執行緒 + Spark,充分發揮了分布式集群的優勢 。尤其是在Inference方面,堆CPU的方案在價效比上很可能是優於GPU的,畢竟Nivdia的計算卡是很昂貴的。

另外,資料探勘以及Information Retrieval等領域中常用的神經網路結構一般都比較淺,多為稀疏網路,也很少用到卷積層。GPU並不十分擅長處理這樣的網路結構。

考慮到實際的生產環境,跑在Spark上的BigDL背後有整個Spark/Hadoop大生態的支援。配合近期很火的SMACK技術棧,可以很輕鬆愉快的構建端到端的生產級別的分布式機器學習流水線。由於沒有異構集群資料傳輸的開銷,從端到端這個層面來看,CPU方案的效能反而可能佔優。

最後,談談可用性,BigDL專案正在快速的迭代中。語言層面支援Scala/Python。API方面有torch.

nn風格的Sequenial API,也有TensorFlow風格的Graph API,以及正在開發的keras API。Layer庫也很齊全,自定義Layer也很方便。相容性方面,BigDL相容了Caffe/Torch/Keras,以及部分TensorFlow模型。

換言之,你可以把用TF/Caffe訓練的模型,匯入BigDL做Inference。反之,亦可。這是乙個非常有用的Feature。

綜上,BigDL雖然並不主流,但在很多場景下是有成為"大殺器"潛質的,包括但不限於:

已有大規模分布式集群的(如: Hadoop集群)

需要大規模Inference的,比如:推薦系統、搜尋系統、廣告系統

(上下游)依賴Spark/Hadoop生態的

輕度深度學習使用者,如:資料研發工程師/資料探勘工程師

Scala/JVM愛好者

利益相關: BigDL使用者 & contributor

3樓:Geek An

intel在開源社群一直都扮演著乙個角色:賣硬體的:給自家硬體寫driver,打補丁,做軟體優化所以除非對intel的深度學習+cpu方案非常有信心,否則不要輕易嘗試

畢竟目前gpu相對cpu成本還是低了~6倍不是麼

4樓:lens

請問現在有用gpu進行集群計算的框架嗎?

5樓:hunter lin

沒有提gpu,大概還是只能cpu執行。記得IBM有個讓spark跑gpu的專案,要是能結合一下就好了。

6樓:

有和他們的開發者交流過給過一些效能的report感覺蠻不錯的社群關注度也蠻大而且直接支援torch的模型 intel的開源社群一直是做的比較好的,期待

如何評價騰訊開源的基於 DPDK 和 BSD 協議棧的網路框架 f stack?

青鳥 估計只有少數大廠會在這方向做開發了!一般用dpdk的專案用kni就夠了。普通的redis,nginx用linux協議棧就夠了,不行就加機器。開發協議棧,或者用別人的協議棧風險收益不匹配呀 腦洞太開 大家一直提到協議棧的cost 如果用RDMA或者roce會怎樣?這兩種網絡卡已經很多傳輸offl...

如何評價 AMD 開源 TrueAudio Next?

zpan 用顯示卡做通用 DSP 運算,很久以前就有人嘗試過。問題的關鍵在於顯示卡與 CPU 之間傳輸資料耗時很長,因此在資料量大時才能體現出顯示卡運算能力的優勢,而音訊資料相對於圖形資料小太多了。估計可能最多在較長的 FFT 和卷積計算上可能有點優勢,更小資料量的話還不如直接用 CPU 算。所以關...

如何評價Intel的實感(realsense)技術?

滿天星 拿著SR300研究了半個月,感覺RealSense SDK是真的.一言難盡 網上能找到的最大的應用也就是官方出的Intel RealSense Viewer。看了看原始碼,是用OpenGL寫的,視窗用的GLFW,UI元素用的ImGui 研究了老久了,真的不容易看。就不用說文件不全,資料少了。...