python有大量機器學習庫,但是不能結合hadoop,該如何實現大規模的機器學習?

時間 2021-05-06 03:37:29

1樓:劉小壯

可以試試 zipimport

2樓:

可以考慮用parameter server 加 spark 做大規模計算,這裡有個spark mllib的例子

Spark MLlib Example

大規模機器學習

3樓:tao cui

這取決於你用那種機器學習的演算法:

比如,你用svm,如果採用高斯核函式,就有兩個引數(這裡用c, g代替)需要設定,這個時候你可以採取網格搜尋的手段,在一系列引數(c, g)的條件下進行訓練,這個時候你可以同時訓練好幾組資料,你可以用hadoop將任務分散到各個空閒的資源去

但是,如果你稍微了解一下svm演算法的本質,發現其實svm的primary形式就是求解乙個線性代數,那麼,對其並行化就集中在如何利用多核心,多節點來求解線性代數的值,而這已經有無數的方案來解決。

因此,對於如何並行化處理大規模ML的問題,在於你自己對此類ML是否有足夠的了解,知道那些過程能夠並行化。

4樓:Xu Feng

演算法和模型不是關鍵,其實資料和應用更關鍵,一般都是有個具體問題考慮如何解決,而且不是為了拿著錘子找釘子。 而且一些機器學習演算法,hadoop實現的效率也不高。 真心要求效能的一般都是自己實現或者引入gpu啥的。

5樓:紀路

並不是所有的機器學習演算法都能夠並行化的,大規模機器學習有專門的庫,Hadoop上的mahout,Spark上有SparkML

學習python和機器學習演算法,深度學習演算法就是學不會,心情很壓抑怎麼辦?

陽光 不知道你多大年齡,阿姨我今年快48了,去年開始學習機器學習,深度學習,也經歷很多燒腦的日子,但是要相信自己,多去網上搜尋,書讀百遍其意自現,死磕到底,沒什麼學不會的,想想又不是讓你造原子彈 我執 看到這個題目我頓時會心一笑,彷彿見到了過去的自己.回答分割線 我想題主應該是想問怎麼快速的學習演算...

機器學習需要大量人工標註,尤其是深度學習,有沒有什麼好辦法解決?

曼孚科技 專業的資料標註企業可以提供大量 高質量的標註資料集。借助AI預標註技術,標註過程中可以減輕對人力的依賴,提公升效率 降低成本。 網感至察 對於機器學習來說,大量的人工標註是很繁瑣的,我們可以通過基於通用的知識圖譜引擎和技術框架,使用深度學習來優化已有的知識體系中不准 不全和不夠靈活的地方,...

python中神經網路,機器學習,深度學習,人工智慧的關係?

冰笛 在紙上畫一顆樹,那麼樹冠可以比作是機器學習,其中的一部分枝蔓比作神經網路,這其中的一根比較粗壯的相當於深度學習 整棵樹是人工智慧的乙個剪影,而python則是畫筆和紙。 教員的好學生 python是一門語言,神經網路,機器學習,深度學習是演算法,人工智慧是工程,神經網路是機器學習的一種演算法,...