如何在事先不知道文字資料聚類數的情況下對海量文字進行聚類?

時間 2021-05-12 00:56:20

1樓:吳建明wujianming

根據聚成的簇的特點,聚類技術通常分為層次聚類(hierarchical clustering)和劃分聚類(partitional clustering)。前者比較典型的例子是凝聚層次聚類演算法,後者的典型例子是k-means演算法。

近年來出現了一些新的聚類演算法,它們基於不同的理論或技術,比如圖論,模糊集理論,神經網路以及核技術(kernel techniques)等等。

2樓:Lanking

之前曾經也因為這個問題頭疼過。主要還是看你需要聚類的是什麼文字了。如果是相似度方面的推測,不如直接用elastic search幫你去尋找類似結果。

如果是為了查重之類的、可以對資料進行一步清洗,有時候清洗歸類對生成質量更高的vector很有幫助。之前沒有多少word2vec的好方法,現在多了很多選擇,根據文字型別可以考慮基於bert的預訓練模型,效果還不錯。做feature extraction之後可以用kmeans或者dbscan等聚類演算法算一下。

3樓:NLPIR

聚類分析是一種無指導的機器學習方法,在機器學習、統計分析、模式識別、資料探勘、生物學等許多領域得到了廣泛的研究與應用。聚類的基本目的是將資料物件按照一定的標準分成若干個簇,使得同乙個簇中的物件之間相似度較大,不同簇之間的物件相似度較小。文件的聚類分析與一般的聚類分析類似,往往包括如下5個步驟:

(1). 模式表示,往往包括特徵抽取和特徵選擇,把資料物件表示成適合於演算法可計算的形式;

(2). 根據領域知識定義模式之間的距離測度公式;

(3). 聚類或者分組;

(4). 資料抽象表達(如果需要);

(5). 評價輸出結果(如果需要)。這裡主要對前三個步驟進行介紹。

文字聚類分析首先要考慮的是文字表示問題,即如何從乙個電子文字的符號和文字中抽取出特徵,通過這些特徵來表示相應的文字,利用這些特徵資料進行聚類分析。不同的文字表示形式包括可以選擇不同的表示模型(如向量空間模型、概率模型、語言模型等),可以選擇不同的特徵選擇方法,可以利用LSI等不同的降維策略等。

常用的表示方法是向量表示法。向量空間模型將文件表示成乙個向量,向量的每一維表示乙個特徵,該特徵可以是乙個字、乙個詞、乙個n-gram或某個複雜的結構。通常情況下,利用向量空間模型表示文件時,需要對於文件進行切分(即前述的中文分詞,對英文而言是通過詞的分界符識別單詞)、停用詞處理、英文詞的詞形還原或者提取詞幹,經過這些步驟的處理,基本上可以得到一系列詞並將其作為文件的特徵。

所有的這些詞構成乙個「空間」,每個詞對應著空間中的一維。每個文件可以用文件中的詞來表示,這些詞及其權重構成乙個向量。向量的每個維度描述物件的乙個特徵,每乙個特徵的重要度通常採用TF*IDF的計算方法來衡量,更多的工作是通過引數調節上獲取更好的效果。

在著名的資訊檢索系統Smart中提出過一套詞權重計算的命名,該命名中綜合了TF*IDF中的多種變化,把詞的權重計算歸結為三個組成部分:詞頻TF、反向文件頻率IDF和基於文件長度的規格化因子。每個部分都有不同的計算方法,這些不同的變化構成了文件的不同表示方式。

常用的表示公式::

其中,w(t, d)表示詞t在文件d中的權重;tf(t, d)表示詞在文件d中的頻率;

表示在整個語料中出現詞t的文件的數目;N表示整個語料中的所有文件數目;|d|表示文件向量的長度。

相關工作中,有的學者嘗試過不同的做法來完成。比如考慮基於概念的聚類,而不是基於簡單的詞的聚類;考慮利用文件中每個詞的互資訊向量來聚類,而不是權重向量等等;也有從效率方面來考慮,用兩次聚類,先用一字詞聚類,再用二字詞進一步聚類提高聚類精度。

不知道生孩子意義何在,不知道身為父母應該怎麼養育孩子,沒有能力好好養孩子的人憑什麼生孩子?!

這氣生的莫名其妙,沒有能力理解這個世界,憑什麼說生就生,生完了什麼也改變不了,連給這氣找個出口都沒有,到底怎麼想的! 往事隨風 孩子就是你前世的債主,現在找上門來了。戀人就是你上輩子愛過的人,因為上輩子的那段緣份,現在再續前緣來了。命裡有的終需有。命裡沒有別強求。是你的終究還會是你的,不是你的就算暫...

如何理解 不知道自己不知道 知道自己不知道 知道自己知道 不知道自己知道?

鄧寧 克魯格效應,這張圖的最新理解。如果我們用表象和本質簡單粗暴的劃分事物認知等級。2 知道自己不知道 慢慢意識到事物發展層次,以及有不同的發展階段,不同的階段對應著不同的特徵和需求,比如馬斯洛人類發展金字塔,知道了有些事情只有在獲得經濟安全後才能充分發展,比如道德,比如體面,比如情懷。知道了表象不...

不知道,人生的意義何在

不止 不會認為這是逃避哦!首先,在做一件事之前,你都能把該注意的問題與什麼樣的未來想到了。當不得不面對的時候,不至於讓你手忙腳亂!既然注意到了問題,要麼避免掉問題的發生,要麼在問題來臨之前做好充足準備,其實無論選擇哪種,只要按自己的喜歡的,期待的去做,嘗試一下就好。關於人生麼,那是太複雜了,一生都在...