什麼是核密度估計?如何感性認識?

時間 2021-05-10 15:56:13

1樓:

其實現在影象處理/深度學習裡用的資料增強(data augmentation)技術就是一種(核)密度估計。

核密度估計(KDE)從一堆離散資料中產生乙個密度函式,其對應的分布等價於先從那些資料裡等概率抽乙個,再加乙個雜訊(由核決定,如正態核就是加乙個正態雜訊)。

拿我非引數統計ppt的一張圖:

現在觀測值為左邊的四個圖,先以等概率(1/4)隨機抽乙個,再以某個頻寬(雜訊程度)施加逐點的連續雜訊。顯然這樣就可以從四張離散圖上定義乙個連續分布,從中可以抽出無數個(連續)個圖出來。

當然這種點雜訊看起來比較貧乏,像什麼資料增強的隨機切片,翻轉,光學變換,馬爾科夫隨機場顯然都可以看作是完全類似的雜訊。它們都是密度估計的特例。我們在資料增強使用什麼樣的雜訊和擾動,就是等於在選定某種核函式,在試圖欽定出背後的密度。

考慮到一般的機器學習目標中,我們想要在某個真實分布下優化某個目標函式,然而我們往往只能觀測到無數個可能樣本中的有限個,如果我們只在那些有限的樣本上優化,相當於在它的經驗分布函式分布估計(ECDF)上進行優化,顯然有過擬合等問題。通過加入KDE式的雜訊,可以「免費地」將分布從ECDF的粗略估計向真實分布靠攏,顯然靠的越攏越好,到完全一樣的時候就不需要擔心過擬合問題了,但KDE的雜訊,像現在的影象增強/密度估計技術一樣,往往做不到那麼強。

由於某種原因,你只能觀察到幾個正的貓,但你知道會有旋轉的貓(?),你可以使用乙個從那些正的貓中隨機抽乙個對應的分布來優化演算法。但更好的是你主動加入旋轉,這樣CNN之類的演算法就不會無法處理旋轉的貓了:

2樓:上官安琪

利用matlab畫出了直方圖的概率密度圖,那麼怎麼得到這個圖的均值和方差?

一直沒有解開這個迷惑,還望大神能夠幫忙解答,感激不盡

3樓:葛通

先說說核密度回歸吧。

已知散點圖,做回歸。

窗寬無限大時,核密度回歸等價於線性回歸。

窗寬無限小時,核密度回歸等價於逐點連線。

乙個不大不小的窗寬下, 可以看成駐點核密度估計。

下面開始核估計了。這種估計的意思是,你給我的模型乙個解釋變數,我告訴你模型估計出來的被解釋變數。你給我 ,我用我所知道的有關x,y的全部知識,告訴你模型對 的估計值.

我以 點為中心,找了窗寬範圍內的所有點(無視外面的點),以距離 遠近為權重,給範圍內每乙個x所對應的y點做乙個加權求和取平均。

權重設定和加和過程,有一定規則,就是核函式。

4樓:

簡單點來說就是實際的統計量都是離散的,離散分布每乙個點的概率是0!!!∑(Дノ)ノ但是每個點又確確實實存在,這可就不好計算了。

之前(小學時代)大家用的都是直方圖,畫畫長條什麼的,這樣就把實際的資料報括在了小長條裡,算是一種近似。

而現在(大學時代),我們學了微積分就想用更方便的近似來計算實際的統計量了,這時候就引入核函式k(·),還有其他一些引數,比如頻寬h,這樣就能為估計分布密度提供一種手段。

習慣上要求密度函式為核函式的隨機變數的均值等於所替代的資料點,這個和最小二乘法擬合直線有異曲同工之妙啊。

至於頻寬h還有k(·)的具體我還在研究,有人看在寫啦(ω)

更新的分割線

其實沒什麼難理解的就是乙個加權平均數,無論是通過核函式求出的概率密度f,還是求出的概率函式F。

關於計算的話就求兩方面就好了,乙個是實際資料的概率p,這個是由統計量來的,沒的說╮(╯_╰)╭另乙個是求權重,這個就和那個頻寬h(私以為這個就是乙個限定許可權的框框,超出頻寬的我們就認為它的許可權是1了)有關了,常見的有均勻核函式、三角核函式、伽馬核函式,具體的公式及推導應該很好找我就不貼了。

5樓:悟性無明

核密度是"原子核密度"的簡稱,其定義為原子核的質量/原子核的體積 。由於原子核邊緣的界定並不清晰,理論上可以取波函式的模方下降至10%或1%處作為邊界,或者取強相互作用的散射截面作為截面積算出體積。

由於原子核中核子的間距較小(~fm=10^-15m),相比起構成物質的原子之間由核外電子分布決定的原子間距(~A=10^-10m),小了大約5個數量級,所以原子核的密度比通常物質大15個數量級左右,這是十分可觀的。

6樓:「已登出」

不知道你有沒有畫過顏色帶透明度的散點圖

比如 aes_colour_fill_alpha. ggplot2 2.1.0 的

h + geom_point(alpha = 1/10)顏色越深密度越大

恩,這就是 kernel density estimation

什麼是密度?

密度其實是乙個簡稱,全稱是密集的程度。狗頭 這樣是不是就好理解一點了。比如通常所說的密度,特指質量密度,也就是質量的密集程度。那麼很自然的,質量的密集程度就是質量除以體積。線密度就是一條線上的密集程度,面密度就是乙個平面上的密集程度。 小肥雞 我們大學以前學的密度是一種簡稱,特指質量密度。而密度其實...

真核比原核高等。為什麼進化的結果是真核生物翻譯過程比原核生物慢很多?這樣有什麼好處?

冰室 我覺得題主的問題並不明確。翻譯過程 是指什麼?如果單純從核醣體從mRNA翻譯肽鏈這一過程上看,實驗中真核生物 S.cerevisiae 的核醣體和原核生物 E.coli 的核醣體的翻譯速率並沒有太大差異。翻譯過程中的限速步驟是氨醯tRNA的識別過程,這一過程主要受氨醯tRNA濃度和氨醯tRNA...

為什麼Apple A9仍然是雙核設計?

阿里蒙德 因為很多軟體還是看單核效能,而且蘋果的雙核核心面積和電晶體數量比他們八核的還要大還要多。其實做大的單核而且控制好能耗是要比開多核難的,蘋果可以從軟體開始整合,所以有這個能力和條件。 劉浩浩 單屏的手機乃至分屏的iPad至多也就同時呈現2個應用,高效的多線並行處理能力在移動輕辦公平台可以說是...