python有大量機器學習庫，但是不能結合hadoop，該如何實現大規模的機器學習？

1樓：劉小壯

可以試試 zipimport

2樓：

可以考慮用parameter server 加 spark 做大規模計算，這裡有個spark mllib的例子

Spark MLlib Example

大規模機器學習

3樓：tao cui

這取決於你用那種機器學習的演算法：

比如，你用svm，如果採用高斯核函式，就有兩個引數（這裡用c, g代替）需要設定，這個時候你可以採取網格搜尋的手段，在一系列引數(c, g)的條件下進行訓練，這個時候你可以同時訓練好幾組資料，你可以用hadoop將任務分散到各個空閒的資源去

但是，如果你稍微了解一下svm演算法的本質，發現其實svm的primary形式就是求解乙個線性代數，那麼，對其並行化就集中在如何利用多核心，多節點來求解線性代數的值，而這已經有無數的方案來解決。

因此，對於如何並行化處理大規模ML的問題，在於你自己對此類ML是否有足夠的了解，知道那些過程能夠並行化。

4樓：Xu Feng

演算法和模型不是關鍵，其實資料和應用更關鍵，一般都是有個具體問題考慮如何解決，而且不是為了拿著錘子找釘子。而且一些機器學習演算法，hadoop實現的效率也不高。真心要求效能的一般都是自己實現或者引入gpu啥的。

5樓：紀路

並不是所有的機器學習演算法都能夠並行化的，大規模機器學習有專門的庫，Hadoop上的mahout，Spark上有SparkML