資料的個數比資料維數還少的時候怎麼做降維?

時間 2021-05-05 17:38:33

1樓:HarryYang

這種高維問題我覺得範劍青教授的SIS方法是不二的選擇。確切來講,先將維度直接縮減到0.5n後,用SCAD去做回歸。R包SIS你值得擁有。

2樓:

CVPR-15公布模式分析與機器智慧型青年科學家獎(2015 PAMI Young Researcher Awards)John Wright(UIUC09年博士,哥倫比亞大學助理教授),高維資料分析在CVPR-15上的專題報告 Sparse and Low-Rank Modeling for High-Dimensional Data Analysis, 希望有幫助

3樓:魏延傑

無監督pca,有監督lda,應該還有許多其他降緯方法,sklearn裡有相應的方法,matlab應該也有。初學模式識別,不知道能不能讀研究生,能讀應該會在這個方向上。

4樓:嘲弦

最近做光譜分類,樣本幾百,維度一千多,用到的降維方法是PCA,PLS,降維效果還可以。

但是PCA,PLS 都對矩陣進行了變換,獲得的貢獻度較大的前幾個PC也很難簡單找出對分類最優貢獻的維度。

5樓:曹旭東

如果你要解決實際問題,建議好好收集資料。資料量提公升乙個量級比什麼方法都管用。等到進一步收集資料變的很困難,或者增加資料的邊際收益很小時再研究演算法。

為什麼呢?資料的量級不同演算法的優劣也不同,很多結論也會發生變化。

當然如果資料真的就這麼少,建議加一些人的知識進去,去掉大量無關特徵。我不太相信在小樣本高緯度的情況下能做出非常好的結果。不同的演算法只是15到18分的區別。

距離100分還差十萬八千里。

大資料加大規模機器學習演算法才是正道。

觀點有些偏激。以上。

想問下大資料開發的大佬 搭建個資料平台需要學習哪些?

加公尺谷大資料老師 目前來說,企業級的大資料平台開發,可選的技術框架很多,這些也都是大資料開發者的技能點。大資料平台的通用架構,通常包括資料傳輸 資料儲存 資料計算 資源管理等多個層面。資料傳輸層 Sqoop 支援RDBMS和HDFS之間的雙向資料遷移,通常用於抽取業務資料庫 比如MySQL SQL...

關於資料降維的諸多演算法,測試資料必須要和訓練資料一起運算麼?

SARNOVICE 不能把測試資料和訓練資料混在一起進行pca降維,應該是用訓練資料降維時生成的引數 均值,協方差矩陣 給測試資料降維時使用。是這樣吧? hijune 資料降維演算法分為線性與非線性方法。線性方法 PCA,LPP等 的目的是尋找乙個高維空間到低維空間的對映矩陣,這個對映矩陣就可以直接...

唐朝的GDP佔世界的58 這個資料是真實的嗎?怎麼計算出來的?

無宇 我個人認為 X朝的GDP佔世界的Y 不是乙個良性描述,因為沒有說明是怎麼計算的。以題目為例,是把唐朝每一年的比例進行平均嗎?還是取了期間內最大值?抑或是唐朝GDP歷年總量除以世界GDP總歷年總量?更何況各朝疆域是動態變化的,這一點也會極大地影響最終的估計結果。我暫時沒有找到 精確地 估計唐朝G...