想學習一些搜尋引擎研發的最新技術,網上都有哪些的部落格是此方面相關的?

時間 2021-06-03 14:01:40

1樓:沙偉

搜尋引擎相對來說是個系統龐大複雜的工程. 蜘蛛資訊結構抽取索引分詞等每乙個構成搜尋引擎的分支技術都與搜尋引擎的完整性密不可分.你說的是搜尋引擎裡的哪個分支?

我的建議最直接有效的途徑就是學習目前的優秀開源搜尋引擎的"零件":我推薦我用過的幾個

(1) Lucene 不說了目前應用最廣泛 (2) nutch 蜘蛛 (3) sphinx 索引

2樓:劉一丁

似乎搜尋引擎領域比較新的東西都是誕生在工業界的,而且一般涉及核心技術,能拿到部落格上的一般都是比較初階的東西了。

書籍方面比較新的就是石遠同學推薦的那本《搜尋引擎:資訊檢索實踐》,這本書內容相對較新,只不過很多都是提到一下,深入的東西比較少。

此外,搜尋引擎比較依賴資訊檢索的基本原理,這些東西一般是很少變的,可以從《資訊檢索導論》和MG等書中學習。

再乙個就是看看Lucene這種開源搜尋框架的原始碼了。

3樓:石遠

如果是入門,建議看bruce croft寫的,search engine : information retrievial in practice. 這本書深入淺出,講的很全面。

google有黑板報,不過搜尋技術相關的內容不是很多。

哪一款搜尋引擎是面向小孩子的?

趙泠 微軟wackysafe是面向兒童的,但是在中國大陸正常使用需要科學上網,而且能搜尋到面向青少年的性教育內容,如果目標兒童年齡更小,家長可能有其他的考慮。No 1 Kids Safe Search Engine Kiddle是為小孩子過濾谷歌搜尋內容的。不但自動過濾而且介面也兒童化,但是也需要科...

搜尋引擎的本質是什麼?它的下乙個形態是怎樣的?或者說現有搜尋引擎會被什麼所取代?為什麼?

目前的搜尋引擎主要靠爬蟲方式組織歷史資料,通過對使用者搜尋意圖識別,在歷史資料中拉取使用者所希望得到的結果。移動網際網路到來和未來的人工智慧時代。之前的搜尋引擎很難再通過過去的爬蟲方式獲取資料了,沒有足夠多的資料就很難為使用者提供更滿意的搜尋結果,所以搜尋引擎的未來關鍵看,未來所掌握的資料。 上帝之...

實現乙個支援正規表示式的搜尋引擎,有市場沒?

congmingyihe 感覺還是有必要的。比如乙個字串,如人名,書寫錯誤,然後並沒有模糊匹配。出於字串太長 字串出現頻率低等其它因素,把它作為了乙個整體,這樣就無法識別了。比如搜尋Taylor S t。 我不是程式設計師,但我會寫正規表示式 而且我希望把鹼基記法全部變成正則比如嘌呤是 AG 嘧啶是...