跳至主要内容

robots.txt

robots.txt 就像是跟搜尋引擎說哪些網頁你可以爬以及哪些你不能爬

  • 如要防止自己的網頁顯示在搜尋結果中,請使用其他方法,例如密碼保護或是 noindex 標記。
  • 防止惡意搜尋或是真不想透露頁面可以用一些 preference 去避免,但最終解法可以是用密碼 注意:提醒您,如果想禁止存取私人內容,請不要使用 robots.txt,而是要改用適當的驗證機制。即使是 robots.txt 檔案禁止的網址,仍有可能在未經檢索的情況下編入索引;此外,由於任何人都能查看 robots.txt 檔案,所以私人內容的位置也可能因此曝光。
  • Google 允許至少五個重新導向躍點,之後便會停止並判定 robots.txt 發生 404 錯誤

有趣的地方是你也可以透過看競爭伙伴的 robots.txt 去看他們為何禁止哪些網頁給哪些檢索器,進而看出一些端倪🤔

klook 來說你會發現他針對 Yeti (Naver 的檢索器) 封鎖了大部分的路由,除了 /ko/,以及針對中國封鎖了大多的 BaiduspiderSogou360Spider/zh-CN/ 的檢索權限,為何呢?以及 PetalBot 是哪家的檢索器,原來是華為的,而他為何也針對 PetalBot 去封鎖了全部路由,從很多地方都可以發現一些意外的點!

從少數的案例上來看,PetalBot可能會大量的爬取網站,導致資源使用量較大。

https://www.iamhippo.com/2022-04/1707.html 這篇表示他某天發現 PV/UV 接近 1:1,原來是 PetalBot 瘋狂爬~

Google 規則: https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=zh-tw#testing

快取

Google 通常會快取 robots.txt 檔案的內容,最多保留 24 小時,但如果在無法重新整理快取版本的情況下 (例如逾時或5xx錯誤),則會延長快取的保留時間。快取回應可由不同的檢索器共用。Google 可能會依 max-age Cache-Control HTTP 標頭增加或減少快取的效期。

記錄您平台上註冊狀態和使用者互動情形,並嘗試找出常見的垃圾內容模式,例如:

  • 表單完成時間
  • 同一個 IP 位址範圍傳送的要求數量
  • 註冊過程中所用的使用者代理程式
  • 在註冊時所選擇的使用者名稱或其他表單提交值

這些信號可協助您建立使用者信譽系統,不僅有助於與使用者互動,也能找出垃圾內容發布者。許多垃圾評論發布者的目的是讓他們的內容出現在搜尋引擎中,因此,如果社群中有尚未累積任何信譽記錄的新使用者,您可以先在他們的文章中加入 noindex robots meta 標記,當這些使用者獲得信譽後,再允許搜尋引擎將他們的內容編入索引。這麼做能有效遏止垃圾內容發布者與平台互動。

可以透過這個工具去測試 robots.txt: https://github.com/google/robotstxt


References: