海量資料的聚類通常如何做？

1樓：iseeyou

做反欺詐時我們做過每天kw量級的帖子準實時聚類，用的是dbscan+simhash演算法，DBSCAN演算法的顯著優點是聚類速度快且能夠有效處理雜訊點和發現任意形狀的空間聚類。simhash演算法能夠把帖子用乙個hash來表示，減少對比複雜度，為了減少對比資料量，我們把64位的simhash每16位分成4段，只對比四段中至少一段完全一樣的。我們把dbscan聚類得到的核心點放在乙個單獨的核心點表中，把每分鐘發布的帖子和核心點做simhash對比，如果發現該帖子和某核心點密度可達，則把該帖子加入該核心點的聚類，上線後效果不錯，每分鐘準實時聚類無延時。

2樓：柴旭峰

海量資料可以抽樣分析，先用抽樣資料進行聚類，把使用者分成幾類，然後用決策樹對每類提取規則，乙個商品進來後就可以用規則對他進行歸類了。

3樓：Kenneth

題主問的是海量資料，那我就假設這是個工程問題而非演算法問題，因為演算法是一樣的。

100萬是增量吧，全量有多少？如果全量超過5000w，使用分布式會比單機進行優化更合適。

MapReduce結構在需要多次迭代的演算法中優勢不明顯，不如使用MPI架構的集群來進行分布式聚類計算。

4樓：HUIYU

1. 抽樣；

2. MapReduce: 每個map處理一塊資料，得到聚類結果把質心給reduce，reduce算乙個平均質心，再迭代回map，直到滿足結束條件。

海量資料的聚類通常如何做？

海量資料幾億高維向量 128維聚類應該怎麼做

市場人員如何做資料分析？

想從事大資料海量資料處理相關的工作，如何自學打基礎？

其他用戶還看了：

海量資料的聚類通常如何做？

海量資料 幾億 高維向量 128維 聚類應該怎麼做

市場人員如何做資料分析？

想從事大資料 海量資料處理相關的工作，如何自學打基礎？

其他用戶還看了：

海量資料幾億高維向量 128維聚類應該怎麼做

想從事大資料海量資料處理相關的工作，如何自學打基礎？