資料的個數比資料維數還少的時候怎麼做降維？

1樓：HarryYang

這種高維問題我覺得範劍青教授的SIS方法是不二的選擇。確切來講，先將維度直接縮減到0.5n後，用SCAD去做回歸。R包SIS你值得擁有。

2樓：

CVPR-15公布模式分析與機器智慧型青年科學家獎(2015 PAMI Young Researcher Awards)John Wright(UIUC09年博士,哥倫比亞大學助理教授)，高維資料分析在CVPR-15上的專題報告 Sparse and Low-Rank Modeling for High-Dimensional Data Analysis, 希望有幫助

3樓：魏延傑

無監督pca,有監督lda,應該還有許多其他降緯方法，sklearn裡有相應的方法，matlab應該也有。初學模式識別，不知道能不能讀研究生，能讀應該會在這個方向上。

4樓：嘲弦

最近做光譜分類，樣本幾百，維度一千多，用到的降維方法是PCA，PLS，降維效果還可以。

但是PCA,PLS 都對矩陣進行了變換，獲得的貢獻度較大的前幾個PC也很難簡單找出對分類最優貢獻的維度。

5樓：曹旭東

如果你要解決實際問題，建議好好收集資料。資料量提公升乙個量級比什麼方法都管用。等到進一步收集資料變的很困難，或者增加資料的邊際收益很小時再研究演算法。

為什麼呢？資料的量級不同演算法的優劣也不同，很多結論也會發生變化。

當然如果資料真的就這麼少，建議加一些人的知識進去，去掉大量無關特徵。我不太相信在小樣本高緯度的情況下能做出非常好的結果。不同的演算法只是15到18分的區別。

距離100分還差十萬八千里。

大資料加大規模機器學習演算法才是正道。

觀點有些偏激。以上。

想問下大資料開發的大佬搭建個資料平台需要學習哪些？

加公尺谷大資料老師目前來說，企業級的大資料平台開發，可選的技術框架很多，這些也都是大資料開發者的技能點。大資料平台的通用架構，通常包括資料傳輸資料儲存資料計算資源管理等多個層面。資料傳輸層 Sqoop 支援RDBMS和HDFS之間的雙向資料遷移，通常用於抽取業務資料庫比如MySQL SQL...

關於資料降維的諸多演算法，測試資料必須要和訓練資料一起運算麼？

SARNOVICE 不能把測試資料和訓練資料混在一起進行pca降維，應該是用訓練資料降維時生成的引數均值，協方差矩陣給測試資料降維時使用。是這樣吧？ hijune 資料降維演算法分為線性與非線性方法。線性方法 PCA，LPP等的目的是尋找乙個高維空間到低維空間的對映矩陣，這個對映矩陣就可以直接...

唐朝的GDP佔世界的58 這個資料是真實的嗎？怎麼計算出來的？

無宇我個人認為 X朝的GDP佔世界的Y 不是乙個良性描述，因為沒有說明是怎麼計算的。以題目為例，是把唐朝每一年的比例進行平均嗎？還是取了期間內最大值？抑或是唐朝GDP歷年總量除以世界GDP總歷年總量？更何況各朝疆域是動態變化的，這一點也會極大地影響最終的估計結果。我暫時沒有找到精確地估計唐朝G...

資料的個數比資料維數還少的時候怎麼做降維？

想問下大資料開發的大佬 搭建個資料平台需要學習哪些？

關於資料降維的諸多演算法，測試資料必須要和訓練資料一起運算麼？

唐朝的GDP佔世界的58 這個資料是真實的嗎？怎麼計算出來的？

其他用戶還看了：

想問下大資料開發的大佬搭建個資料平台需要學習哪些？