海量資料的聚類通常如何做?

時間 2021-06-02 16:09:43

1樓:iseeyou

做反欺詐時我們做過每天kw量級的帖子準實時聚類,用的是dbscan+simhash演算法,DBSCAN演算法的顯著優點是聚類速度快且能夠有效處理雜訊點和發現任意形狀的空間聚類。simhash演算法能夠把帖子用乙個hash來表示,減少對比複雜度,為了減少對比資料量,我們把64位的simhash每16位分成4段,只對比四段中至少一段完全一樣的。我們把dbscan聚類得到的核心點放在乙個單獨的核心點表中,把每分鐘發布的帖子和核心點做simhash對比,如果發現該帖子和某核心點密度可達,則把該帖子加入該核心點的聚類,上線後效果不錯,每分鐘準實時聚類無延時。

2樓:柴旭峰

海量資料可以抽樣分析,先用抽樣資料進行聚類,把使用者分成幾類,然後用決策樹對每類提取規則,乙個商品進來後就可以用規則對他進行歸類了。

3樓:Kenneth

題主問的是海量資料,那我就假設這是個工程問題而非演算法問題,因為演算法是一樣的。

100萬是增量吧,全量有多少?如果全量超過5000w,使用分布式會比單機進行優化更合適。

MapReduce結構在需要多次迭代的演算法中優勢不明顯,不如使用MPI架構的集群來進行分布式聚類計算。

4樓:HUIYU

1. 抽樣;

2. MapReduce: 每個map處理一塊資料,得到聚類結果把質心給reduce,reduce算乙個平均質心,再迭代回map,直到滿足結束條件。

海量資料 幾億 高維向量 128維 聚類應該怎麼做

時光之笛 可以先用NMF或者TSNE進行降維後,再進行聚類。在聚類選擇方面,可以用層次聚類法結合heatmap或者系譜圖觀察聚類聚類情況,非常不錯的組合。 六識社長 建議自己寫,最好是用spark來做 不知道你說的mapreduce是只特指hadoop mapreduce,還是泛指平行計算 可以參考...

市場人員如何做資料分析?

小羊羔要努力 乙個資料分析工具必不可少,當你有了資料,你要能直觀的看出資料的走勢來進行分析OR決策,推薦豌豆BI,個人版完全免費,而且無需程式設計,探索式分析,自己發掘資料價值類Excel的資料預處理模式,符合業務人員操作習慣的預處理,讓會使用Excel的使用者就能輕鬆完成去除重複行 空值替換,資料...

想從事大資料 海量資料處理相關的工作,如何自學打基礎?

shujujia 多看些大資料技術方面入門的書籍,推薦幾本 Python 利用Python進行資料分析 Python基礎教程 Python Cookbook 笨辦法 學Python MATLAB 精通MATLAB MATLAB R2014a從入門到精通 MATLAB R2014a完全自學一本通 MA...