面對有大量缺失值的資料應該怎樣處理比較合理?

時間 2021-05-29 23:43:32

1樓:dlwlrma

最近正好在做netflix problem, singular value thresholding(SVT)可以用來做矩陣填充,它的核心在於奇異值分解,netflix的資料只有1%有值,99%都是缺失的,用svt還原,填充缺失值效果還不錯,rmse可以收斂到0.01。具體可見我的github:

.但是缺點在於要想完美復原原矩陣, 前提條件是原矩陣必須低秩,即資料最好每列的缺失值比例都比較大,svt用0填充缺失值,這樣填充過的矩陣就低秩了,然後就可以完美還原,但是實際應用中大多是某一列缺失值比較多,其他列大多完整,這種情況下填充效果就比較一般了,所以這種演算法的應用場景十分有限。

2樓:

剛在另乙個問題下回答了R中mice包的缺失值處理,鏈結如下,供參考:

各種統計分析軟體,對於缺失值的預設處理方式是什麼? - Hiu Kung 的回答

如果題主只是想知道大量缺失時的處理情況,恕直言,根本就不符合填補的情況。

題主不妨換個角度看一下吧。

為何會缺失之類,也可以成為乙個研究問題的。希望有幫助。

3樓:沙薈

資料缺失率達到80%實在太高,基本上沒有什麼統計學方法能救了。

如樓上所說,不管是何種imputation方法,大多要求資料是missing at random。所以你需要首先確認導致資料缺失的原因。如果缺失是隨機發生,可以考慮imputation或者em。

但如果不是,那最可能的是資料收集階段就出了問題,那就很難補救了。即使用了imputation來補救,資料分析出的結果也可能是不可信的。

4樓:楊益煩

總論MAR: Missing at random

NMAR: Misiing not at random

下面的主要是在clinical trial中, 見ICH E9:http://www.

ich.org/fileadmin/Publi

c_Web_Site/ICH_Products/Guidelines/Efficacy/E9/Step4/E9_Guideline.pdf

LOCF: Last observation carried forward

Multiple imputation/EM

BOCF: baseline observation carried forward, 這個東西還有改進版本mBOCF

WOCF: Worst observation carried forward

<<< 其中每個都能寫一篇文章了。

非常規手段舉例

如果認為那種缺失60%就不能做的也是比較拿衣服。比如一種很特殊的缺失:刪失資料(生存分析領域),80%都不是夢。

但是不偷換命題,看看這個有意思的東西: Matrix Completion with Noise (使用壓縮感知的理論),以及推薦系統要做的事情。是不是有很親切的感覺?

有汙點的女人應該怎樣面對生活?

俊懿 古話說好 人非聖賢孰能無過 知錯能改善莫大嫣 看了你說的情況,有幾點值得慶幸的,一是恭喜你碰到了真心愛你的人,在這種情況下你的前夫不顧男人的面子,不顧外人的阻撓尤其是親人,甚至是至親的反對,不顧前嫌仍然堅持跟你在一起,希望你珍惜這份世間難能可貴的感情,他既然這麼相信你這麼有決心跟你在一起,那麼...

應該怎樣面對自己的過去?

momo 過去精彩的話當然值得留念了,但是如果過去給你留下了不好的印象,就沒有必要抓著不放,每乙個人都應該擁有更好的人生,應該朝著更好的方向發展,沒有什麼可以阻擋你,就算你自己也不行。 Monster DC 過去其實就是過去,其實有時候在想,面對了又怎樣?逃避了又怎樣?它終究是過去呀!而我們需要面對...

迷茫期的自己應該怎樣去面對

阿里大大 1.趁年輕,靜下心來,趕快學習,想你這樣的,需要學習幾個謀生的技能。2.沒有學歷,只能吃本事,少玩遊戲,多學技能。3.遠離雞湯文章,喝了一大堆雞湯,但是發現手裡沒有金剛鑽,還是攬不了瓷器活,追悔莫及。4.少吃吃喝喝,不要當乙個酒囊飯袋。 explorer 不用一下子確定乙個方向走到黑,只要...