推薦系統有哪些坑？

1樓：神策資料

前面有很多優質回答，我就補充2個前面沒有的實踐經驗以及解決方案：

某一次使用推薦系統進行小的流量測試上線之後，技術同事發現效果不如預期，便進行了詳細的資料分析，發現了兩個方面的資料異常。

第一，命中行為模型的使用者較少。通常情況下，只要不是乙個新使用者，理論上來說，都應該能夠命中該行為模型。當時的新使用者比例在 20% 以下，而命中模型的使用者大概僅為 30%，說明大量的使用者沒有命中到模型。

第二，很多請求的 ID 未出現在日誌中。當時技術同事猜測是否因為推薦結果被別人作弊刷掉了。因為用「作弊」能很好地解釋這些請求並未落到日誌中的原因。

但最終深究發現並不是作弊的問題，而是因為使用者 ID 沒有統一。前端在用他們理解的一套使用者 ID 體系打日誌，但是後端在用另外一套使用者 ID 體系傳送請求。於是所有的資料無法對上，後端過來的請求總是新使用者，而訓練出來的模型命中不了任何使用者。

最終，技術同事們建立了一系列的方法和工具以及流程去保證整個使用者 ID 體系的一致性。

2樓：Geek An

作為乙個千億級資料量的從業者，我講講我認為最重要的幾點，可能與其他回答都略有不同

不同規模下的工程架構：特徵從百到百萬到百億，不同級別的工程架構相差極大

對目標的選定：如何選擇你的目標，決定了怎麼做畫像、特徵，改變乙個目標非常的傷筋動骨，而且也無法說清目標的制定是否科學

對長期目標的學習：短期的目標可以是一跳（使用者的單次成本，付費或者消費），但長期的目標一定是使用者付出的長期成本（長期消費，使用者粘性），怎麼去學習，是非常困難的事情。很多公司、學校都在進行這方面的研究（1、2、3），可以參考

這幾個點很難繞過，未來幾年也會成為各家推薦的差異點。核心技術說實話大家都非常清楚，Wide & Deep已經應用的非常廣泛，這剩餘的核心問題就看誰能夠解決的足夠快、跑的足夠前面了。

[1] Dulac-Arnold G, Evans R, van Hasselt H, et al. Deep reinforcement learning in large discrete action spaces[J]. arXiv preprint arXiv:

1512.07679, 2015.

[2] Liebman E, Saar-Tsechansky M, Stone P. Dj-mc: A reinforcement-learning agent for music playlist recommendation[C]//Proceedings of the 2015 International Conference on Autonomous Agents and Multiagent Systems.

International Foundation for Autonomous Agents and Multiagent Systems, 2015: 591-599.

[3] Zheng G, Zhang F, Zheng Z, et al. DRN: A Deep Reinforcement Learning Framework for News Recommendation[C]//Proceedings of the 2018 World Wide Web Conference on World Wide Web.

International World Wide Web Conferences Steering Committee, 2018: 167-176.

3樓：蕭然

從產品業務上來講，很多產品不分場合的使用個性化推薦，這樣是不合適也是不划算的。

所以這個時候使用推薦系統，個人認為不是乙個投入產出比划算的場景。

4樓：

1，資料量太大，機器處理不了

2，leader期望太高

3，資料質量太差

4，冷啟動問題

5，熱銷比個性化在gmv上表現更好

5樓：嵇可睿

滿足使用者需求

滿足使用者需求的場景；

滿足使用者需求的內容/資訊/功能；

對於如何獲取與理解使用者需求，這裡面有很多坑。

比如，讓使用者主動填寫還是被動收集？主動填寫怎麼引導？填寫的是真實需求麼？

填寫的是本質需求麼？填寫的需求是哪個層級的需求？如何標準化？

被動收集通過哪些特徵來收集？特徵與需求的對應是正確的麼？需要校驗使用者需求麼？

怎樣校驗使用者需求？校驗發現有衝突怎麼辦？用這個賬號的真的是這個使用者麼？

多人用乙個賬戶怎麼辦？

有些是技術方向的，有些是產品方向的，更多的則是混合型別的，坑是填不完的。

至於滿足使用者需求的場景層面樓上已經提過一些了，就先不展開了，按照上面那個邏輯大家可以沒事拷問一下自己就會發現坑不是一般的多。

樓上的解決方案基本上還是技術向為主的解決方案，其實我覺得現在推薦技術其實相對來說不算最短的板，在產品形態上才是現在最大的坑。一方面是大家對推薦的固化印象，一方面是現在對推薦產品形式沒有太多真正下精力的研究與探索(相對技術來說)。GoogleNow其實是一次不錯的嘗試，不過Google對技術的追求還是遠遠大於產品。

扯了這麼多，還是書歸正傳，回答一下問題，除了產品的坑之外，還有幾個坑：

迷信演算法：資料比演算法重要太多，這個已經是在現有技術條件下的經驗鐵律了，在技術有長足進步前可以先不用挑戰；

正負反饋的區分：要盡可能簡化正負反饋的判定條件，但是一定要想清楚這個條件是否真的能判定正負。

以上。順便打個小廣告，最近打算在產品形態上做點激進的嘗試，有興趣的同學不妨小窗聯絡，看看能不能一塊來玩玩~

推薦系統有哪些坑？

計算廣告與推薦系統有哪些區別？

推薦系統（推薦模型或者工程實現）裡有哪些簡單有趣的想法呢？

2023年，入坑推薦系統是否是明智之舉？

其他用戶還看了：