如何評價intel開源基於spark的深度學習庫BigDL

1樓：盈ying

1，科技日新月異，這個其實很正常。2，人玩遊戲的目的是取樂，職業賽事本來就是市場的產物。3，天下第一只是虛名，圍棋未必是銀河系最難的遊戲

2樓：AlfredXXfiTTs

BigDL相對於其他主流的深度學習框架(TensorFlow/Caffe/PyTorch)，算是乙個異類。其異有二：

CPU純分布式(Spark)

雖然業界普遍不看好CPU跑深度學習，但實際上還是有需求的。比如，現有Hadoop集群的公司，復用現有集群來跑深度學習是最經濟的方案。

並且，充分優化後的CPU集群的效能還是挺可觀的。拿BigDL來說，MKL + 多執行緒 + Spark，充分發揮了分布式集群的優勢。尤其是在Inference方面，堆CPU的方案在價效比上很可能是優於GPU的，畢竟Nivdia的計算卡是很昂貴的。

另外，資料探勘以及Information Retrieval等領域中常用的神經網路結構一般都比較淺，多為稀疏網路，也很少用到卷積層。GPU並不十分擅長處理這樣的網路結構。

考慮到實際的生產環境，跑在Spark上的BigDL背後有整個Spark/Hadoop大生態的支援。配合近期很火的SMACK技術棧，可以很輕鬆愉快的構建端到端的生產級別的分布式機器學習流水線。由於沒有異構集群資料傳輸的開銷，從端到端這個層面來看，CPU方案的效能反而可能佔優。

最後，談談可用性，BigDL專案正在快速的迭代中。語言層面支援Scala/Python。API方面有torch.

nn風格的Sequenial API，也有TensorFlow風格的Graph API，以及正在開發的keras API。Layer庫也很齊全，自定義Layer也很方便。相容性方面，BigDL相容了Caffe/Torch/Keras，以及部分TensorFlow模型。

換言之，你可以把用TF/Caffe訓練的模型，匯入BigDL做Inference。反之，亦可。這是乙個非常有用的Feature。

綜上，BigDL雖然並不主流，但在很多場景下是有成為"大殺器"潛質的，包括但不限於：

已有大規模分布式集群的(如: Hadoop集群)

需要大規模Inference的，比如：推薦系統、搜尋系統、廣告系統

(上下游)依賴Spark/Hadoop生態的

輕度深度學習使用者，如：資料研發工程師/資料探勘工程師

Scala/JVM愛好者

利益相關: BigDL使用者 & contributor

3樓：Geek An

intel在開源社群一直都扮演著乙個角色：賣硬體的：給自家硬體寫driver，打補丁，做軟體優化所以除非對intel的深度學習+cpu方案非常有信心，否則不要輕易嘗試

畢竟目前gpu相對cpu成本還是低了~6倍不是麼

4樓：lens

請問現在有用gpu進行集群計算的框架嗎？

5樓：hunter lin

沒有提gpu，大概還是只能cpu執行。記得IBM有個讓spark跑gpu的專案，要是能結合一下就好了。

6樓：

有和他們的開發者交流過給過一些效能的report感覺蠻不錯的社群關注度也蠻大而且直接支援torch的模型 intel的開源社群一直是做的比較好的，期待