Spark 千萬級使用者相似度計算?

時間 2021-05-05 18:54:47

1樓:

nns。另外,實際生產還可以結合業務特點優化,比如說先對使用者按基本屬性(性別、年齡這些)進行分群,然後每個分群再單獨兩兩計算相似度,可以降低計算量,達到效能和效果的平衡。

2樓:tozh

兩兩相似度是肯定不可能的,一般是top N。這個topN怎麼計算呢,首先你要把相似度為0的都排除掉,具體方法可以參考協同過濾的計算方法,建立user或者item的矩陣,這個矩陣一定是稀疏的。

3樓:小毛驢

如果不是確實需要兩兩相似度,而是想找到某個使用者最相似的N個鄰居。可以考慮faiss,單機支援上億級別的毫秒級搜尋。親測有效

4樓:sirius

如果是jaccard相似度,可以先建立item->users的倒排,再將每個item下的user兩兩生成pair,count一下即可得到使用者之間的交集。

其他相似度可以嘗試lsh

5樓:李小三

如果只是需要相似度比較近,可以把最近鄰問題轉化為近似最近鄰問題,用lsh區域性敏感雜湊,mllib有實現基於jaccard距離和歐式距離的,余弦距離的github上有很多實現。

spark千萬資料join問題

misc whistle 遇到過類似問題。可以有幾個辦法,乙個方法是試著用union,groupbykey,mapvalues。似乎會節約一些記憶體。方法2 join前,將兩個集合拆成幾部分,組合起來做join。方法3,一種簡單的辦法,遇到這種情形的join用map reduce代替spark,計算...

消消樂這款遊戲使用者過億,月流水幾千萬,真有那麼多人充值嗎?休閒類遊戲有那麼容易沉迷嗎?

Robin Roket 玩過這款產品,國內沒怎麼大推,不過的確算是良心之作。玩法,畫面,角色都很有特色,其實不算是休閒類產品,還是蠻重度的,感興趣的可以試試。 不可否認,休閒類遊戲能夠讓大家利用碎片化的時間進行一些娛樂,達到一定程度的享受,打消時間。甚至對於一些本來有可能反感的事情,也會因為休閒遊戲...

活躍使用者動不動就上千萬,這裡面有多少水份呢?

最應該質疑的不該是它6個億的註冊使用者嗎?在這個資料的前提下,1000萬的月活還好意思亮出來。可能不同平台對月活的定義有所不同,如果按我的理解,指乙個月內有過登入行為的使用者 這裡的使用者可不單單指註冊使用者,還有遊客呢 剔重後得到的資料,那不覺得1000萬月活少的有點尷尬嗎?活躍度是有多低。鬼才信...