搜尋引擎或者我們自己在篩選關鍵詞的時候,如何判斷 關鍵詞的冗餘成分?

時間 2021-06-01 16:10:40

1樓:王浩

夜息說的方法,比較全面了。

補充說下,這個問題,學術上應該是,Query Segmentation,有大量的研究和成果。

除了夜息說的幾個方面外,很多借助於query log、query result 和click 資料集合以及借助全網語義庫資訊的特徵工程可以提高效果。

另外,還需要考慮所謂的詞與詞之間的位置關係,對於提取核心詞的作用挺大。因為同樣的詞集,不同的位置組合方式下,query的核心詞可能會發生變化。

最後,所有上面(含夜息提到的),都會作為特徵之一,進行learning to rank的機器學習打分過程,得出最後的結果。

當然,簡單的話,就看單特徵的結果,效果也不是太差,但對於商業搜尋引擎的海量資料,影響還是比較明顯的。

2樓:夜息

這個看具體應用場景,就個人接觸,說一些常見的思路,下面的方法可以結合起來使用。斜體標註的可以自行網上搜尋一下概念和方法,就不展開說了

1. 詞性標註,去掉一些對主題無意義的詞,通過語義樹找到主幹,例如小時候經常幹的找句子的主謂賓。

2. tf-idf,通過相關語料分詞後進行計算tf-idf的值來提取主幹,速度快,精確度尚可

3. 特徵詞,適用於垂直行業

4. 主題模型,例如plsi,找出每個查詢項的主題集合,然後去掉低概率的主題。

搜尋引擎的價值確是在降低嗎?

搜尋引擎還有乙個重要的作用 訓練人工智慧。所以未來語音助理基本是Google Now Cortana Siri。搜尋引擎依舊價值巨大。 搜尋的需求從原始社會就開始存在,以後也會依舊存在.搜尋引擎的搜尋若定義為對資訊的尋找,那麼除非資訊世界裡的資訊的價值極低或數量極少,否則這種尋找將會是必要的.搜尋的...

如何高效地使用搜尋引擎?

靚仔Raymond 這是最適合沒經驗的搜尋小白看的指南,從 0 到1 帶你入門高階搜尋技巧 認真看完這篇回答,你所掌握的搜尋知識將超越90 的人PS 這是我的 人生贏家 計畫的第二部分內容人生贏家計畫 總結包含理財 職場 生活 藝術等方方面面的知識,讓你突破自我侷限,提公升認知,成為名副其實的人生贏...

搜尋引擎如何識別網頁正文內容?

安專林 1 通過建立html標籤樹識別標籤中的文字 2 通過投票方法識別正文的文字塊常見的投票規則主要有以下幾種 1 根據文字塊文字長度 比如,文字塊文字長度小於10個字,得分為0分 在10 50個字之間,得分為5分 在50 250之間,得分為8分 超過250個字,得分為10分。2 根據文字塊文字位...