Spark 千萬級使用者相似度計算？

1樓：

nns。另外，實際生產還可以結合業務特點優化，比如說先對使用者按基本屬性（性別、年齡這些）進行分群，然後每個分群再單獨兩兩計算相似度，可以降低計算量，達到效能和效果的平衡。

2樓：tozh

兩兩相似度是肯定不可能的，一般是top N。這個topN怎麼計算呢，首先你要把相似度為0的都排除掉，具體方法可以參考協同過濾的計算方法，建立user或者item的矩陣，這個矩陣一定是稀疏的。

3樓：小毛驢

如果不是確實需要兩兩相似度，而是想找到某個使用者最相似的N個鄰居。可以考慮faiss，單機支援上億級別的毫秒級搜尋。親測有效

4樓：sirius

如果是jaccard相似度，可以先建立item-＞users的倒排，再將每個item下的user兩兩生成pair，count一下即可得到使用者之間的交集。

其他相似度可以嘗試lsh

5樓：李小三

如果只是需要相似度比較近，可以把最近鄰問題轉化為近似最近鄰問題，用lsh區域性敏感雜湊，mllib有實現基於jaccard距離和歐式距離的，余弦距離的github上有很多實現。

spark千萬資料join問題

misc whistle 遇到過類似問題。可以有幾個辦法，乙個方法是試著用union,groupbykey,mapvalues。似乎會節約一些記憶體。方法2 join前，將兩個集合拆成幾部分，組合起來做join。方法3，一種簡單的辦法，遇到這種情形的join用map reduce代替spark，計算...

消消樂這款遊戲使用者過億，月流水幾千萬，真有那麼多人充值嗎？休閒類遊戲有那麼容易沉迷嗎？

Robin Roket 玩過這款產品，國內沒怎麼大推，不過的確算是良心之作。玩法，畫面，角色都很有特色，其實不算是休閒類產品，還是蠻重度的，感興趣的可以試試。不可否認，休閒類遊戲能夠讓大家利用碎片化的時間進行一些娛樂，達到一定程度的享受，打消時間。甚至對於一些本來有可能反感的事情，也會因為休閒遊戲...

活躍使用者動不動就上千萬，這裡面有多少水份呢？

最應該質疑的不該是它6個億的註冊使用者嗎？在這個資料的前提下，1000萬的月活還好意思亮出來。可能不同平台對月活的定義有所不同，如果按我的理解，指乙個月內有過登入行為的使用者這裡的使用者可不單單指註冊使用者，還有遊客呢剔重後得到的資料，那不覺得1000萬月活少的有點尷尬嗎？活躍度是有多低。鬼才信...

Spark 千萬級使用者相似度計算？

spark千萬資料join問題

消消樂這款遊戲使用者過億，月流水幾千萬，真有那麼多人充值嗎？休閒類遊戲有那麼容易沉迷嗎？

活躍使用者動不動就上千萬，這裡面有多少水份呢？

其他用戶還看了：