搜尋引擎如何識別網頁正文內容?

時間 2021-07-15 19:45:34

1樓:安專林

1、通過建立html標籤樹識別標籤中的文字

2、通過投票方法識別正文的文字塊常見的投票規則主要有以下幾種:

1、根據文字塊文字長度

比如,文字塊文字長度小於10個字,得分為0分;在10~50個字之間,得分為5分;在50~250之間,得分為8分;超過250個字,得分為10分。

2、根據文字塊文字位置

比如,文字塊文字位置在右側,得分為0分;在頂部,得分為3分;在左側,得分為5分;在中間,得分為10分。

3、根據文字塊css樣式中的class名和id名

比如,class名或id名中包含header、foot、sidebar、ad等,得分為0分;包含content的得分為10分。

4、根據文字塊可視面積大小

比如,可視面積大於300x50畫素,加分;小於一定畫素,減分,甚至為0分

最後,根據每個規則的打分結果,累計出文字塊的總得分。如果乙個文字塊得分越高,那麼認為它是正文內容的可信度越高。

需要說明的是,在實際的程式中,規則器的打分是不斷調整的,需要通過足夠多的網頁進行訓練和學習,投票準確率才能越來越高。但即便如此,投票結果也並不總是正確的,機器能做的只是不斷提高準確率。

如何高效地使用搜尋引擎?

靚仔Raymond 這是最適合沒經驗的搜尋小白看的指南,從 0 到1 帶你入門高階搜尋技巧 認真看完這篇回答,你所掌握的搜尋知識將超越90 的人PS 這是我的 人生贏家 計畫的第二部分內容人生贏家計畫 總結包含理財 職場 生活 藝術等方方面面的知識,讓你突破自我侷限,提公升認知,成為名副其實的人生贏...

如何看待搜尋引擎腐蝕大腦的觀點?

是你自己放棄了動腦子,沒有搜尋引擎你的腦子也不知道如何思考如何解決問題。對,我就是那種遇到事情先搜一下的人,當我搜不到答案的時候,我回想一下以前的一些辦法和思路,再融合一下,也能解決問題。so 腐蝕?拉倒吧,沒有搜尋引擎靠我個人永遠想不出那麼多,那麼巧妙的思路。善用搜尋引擎,你將站在幾十萬從業者的肩...

搜尋引擎的價值確是在降低嗎?

搜尋引擎還有乙個重要的作用 訓練人工智慧。所以未來語音助理基本是Google Now Cortana Siri。搜尋引擎依舊價值巨大。 搜尋的需求從原始社會就開始存在,以後也會依舊存在.搜尋引擎的搜尋若定義為對資訊的尋找,那麼除非資訊世界裡的資訊的價值極低或數量極少,否則這種尋找將會是必要的.搜尋的...