到底什麼才是無監督學習？

1樓：Lanzhe Guo

在無監督學習過程中，訓練樣本的標記資訊是未知的，無監督學習可以通過對無標記訓練樣本的學習來揭示資料的內在性質和規律，為進一步的資料分析提供基礎。

問題中提到的新聞分組，就是無監督學習中應用最多的「聚類"(clustering)，聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集。

劃分的標準一般是依據相似度，直觀上講，我們希望「物以類聚」，即同一組的樣本彼此相似，不同組的樣本彼此不同，即「組內相似度高」且「組間相似度低」，至於怎麼衡量相似度可以採用「距離度量」（distance measure）函式來進行計算。

劃分完成之後，每個組都對應乙個潛在的新聞標籤（類別），比如「經濟」、「政治」、「娛樂「、」體育「等，這些概念對聚類演算法而言是事先未知的，聚類過程僅僅能夠自動形成簇結構，每一簇（組）所對應的標籤語義需要演算法使用者來把握和命名。

2樓：青禾的學習筆記

有監督學習是指有標籤標識，訓練資料時知道每個例項屬於哪個類。無監督學習是指無標籤標識，典型演算法是聚類，訓練資料時不知道每個例項屬於哪個類別，而是根據例項間的距離來分類。

聚類演算法，如kmeans，1隨機選中幾個簇為類的中心。2依次計算到中心的距離，分別將例項劃分到最近的各簇。3更新中心的座標，繼續上面的過程2。

3樓：張大帥

乙個比較大的作用：無監督的結果可以大大提公升下一步處理的效果。

比如PCA降維，經過這一步處理的資料，再給有監督模型用，會比處理前的資料直接給有監督模型效果大大提公升。再比如RMB，資料經過多層RMB壓縮之後，再做乙個簡單的線性分類，就能得到比很多複雜的分類模型都要好的效果。

再比如資訊檢索當中，詞和文件之間的相似度不好度量，但如果先經過一步無監督的PLSA，就可以用到每個topic的概率來表達乙個詞，也可以用到每個topic的概率來表徵文件。雖然這些topic也是無監督出來不知道什麼意義，但是用到topic的概率來計算詞和文件的相似度，就比直接TF-IDF要好多了。