Robots協議中Request rate和Crawl delay的區別是什麼?

時間 2022-01-20 16:27:19

1樓:

Crawl-delay: n

每次抓取間隔n秒。什麼算作一次抓取由爬蟲自行決定,例如Yandex、Bing的定義不同。

Yandex.com - Using robots.txt

Bing.com - To crawl or not to crawl, that is BingBot's question

Request-rate: x/n

抓取x個頁面在n秒之內。單個頁面及其資源算作一次抓取。

某些爬蟲支援時間單位,例如Request-rate: 12/1m,表示每1分鐘可抓取12個頁面。

支援Request-rate的爬蟲,會跟蹤頁面及其資源,避免重複抓取。

所以設定Request-rate時,x/n可以比Crawl-delay小一些。

2樓:

Request-rate: 1/2 # load 1 page per 2 seconds

Crawl-delay: 10

上面兩個引數都是限定爬取頻率的,應該是用來支援不同的爬蟲的,比如,對於 Yandex 的爬蟲來說,它支援 Crawl-delay 這個引數

3樓:Angry Bugs

沒有什麼區別,robots.txt 並沒有乙個標準來約定。有的爬蟲支援request-rate,有的支援crawl-delay。知乎的這兩個本身是互相衝突的,取哪個都行。

TCP協議中payload設定方式?payload是否與Window size有關?

歐文韜 簡單地稅這就是乙個資料報資料部分的緩衝區。和MTU有關。然後還會留一部分開放協議頭。你如果用ipv6的話這個payload應該還會更低點。 許楊 tcp 在三次握手時會協商乙個mss 最大報文長度 協商每乙個報文段最大傳輸的資料長度。如果你去看你分析的資料報的話,應該就是1460 王賽 給J...

關於java socket程式設計中傳輸協議層和應用層協議的乙個疑問,求指教?

Mr.Zhang 瀉藥。我來回答第乙個問題好了。結論先行 必須!傳輸層 用來對資料進行流量控制以及對資料報的大小進行嚴格控制。應用層 用來對軟體提供網路服務的介面,如此才能是程式呼叫網路服務。so? 鮑一豐 必須。沒有預設。可以,一般不用。下面是科普,你就是一台電腦,你收到一快遞了,快遞就是你收到的...

想報中公5萬的公考協議班,想問參加過協議班的同學們覺得上完課對自己提公升大嗎?

Belief 我覺得還行,師資肯定跟線上比不了,但也差不太多,都是統一教研的就那麼回事,這種班適合一些自制力不太強的人,畢竟從早上到晚還有人跟你比,自己就有動力學,所有機構方法都是差不多的,關鍵還是看自己開不開竅,真的真的師資真不是關鍵,關鍵還得靠自己多練多總結,不過就算沒考過也的確全退。 西瓜天 ...