用 robots.txt 提升 SEO:透過更聰明的爬蟲控制改善網站效能
Crawler Control在PH000和網站效能上都發揮了重要作用. 搜尋引擎爬行者透過網站移動並收集資訊,這樣他們就可以檢索搜尋結果中顯示頁面所需的資料. 透過適當控制爬行者行為,可以提高PH000結果和站點效能.
中心工具是機器人.txt. 這篇文章深入解釋了機器人.txt,從基本到實際使用,謹慎點,以及先進的技術,以便你能夠真正地精通.

第一章:機器人的基本知識.txt

什麼是機器人.txt嗎? 爬行者控制如何運作
Robots.txt是一個放在網站根目錄中的純文字檔案. 它告訴爬行者他們可能爬到哪些地點,哪些地方不應該爬.
當一個爬行者訪問一個網站時,它通常先閱讀機器人.txt,然後根據這些指令爬行網站. Robots.txt是對爬行者的要求,不是強力擋板,但主要的搜尋引擎確實尊重它. 然而,由於惡意爬行者和一些其他bots可能會忽略機器人.txt,因此你永遠不應該依靠它來保護機密資訊.
將機器人.txt、檔案格式和字符集放置在哪裡
Robots.txt必須放置在網站的根目錄中,例如PH000
如果你把它放在子目錄裡,那就行不通了。 檔名稱也必須是小寫機器人. txt.
檔案格式必須是純文字,強烈推薦PH0008編碼. 如果使用其他編碼,爬行者可能無法正確解釋檔案.
基本語法: 使用者代理、 取消、 允許和規則細節
Robots.txt的寫法帶有使用者代理,Disallow,和允許等指令. 這些指令注重個案,每行寫一份。
- User-agent:指定一條規則適用於哪個爬行者。 您可以為每個爬行者指定一個特定的爬行者或使用 *。 透過宣告多個使用者代理行,可以定義不同爬行者的不同規則. 例項:
使用者代理: Googlebot, (中文).使用者代理:賓博, (中文).使用者代理 : *. - Disallow:指定不可爬行的路徑。 它被寫成一個相對的路徑 從斜線開始。 虛空的Disallow線意味著一切被允許. 例項:
否定: PH000, (中文).Disallow:. - Allow:指定可爬行的路徑。 它在您想要允許用 Disallow 遮蔽的部分位置時被使用。 在這種情況下,允許規則優先於Disallow。 示例
否定: PH000和允許: PH000.
如何使用萬用字元(*)和(美元):靈活路徑匹配和高階使用
星號匹配任意字串。 比如說,否定: PH000*.pdf遮蔽每個 PH000 檔案,以及殘廢: PH000*.jpg$在 /images/0 目錄下只設定 JPG 檔案。
美元標誌與一行的終點相符. 比如說,殘疾:000菲律賓比索塊訪問 PH000 目錄本身, 同時仍然允許地址如 /blog/article1/.
設定 crawl- 延遲: 減少伺服器載荷及其對 Googlebot 的影響
用 Crawl-delay 指令,您可以在秒內指定爬行請求之間的間隔。 這在伺服器載入量高時會有所幫助,但Googlebot並不正式支援Crawl-delay. Google先前在Search Console中推薦的爬行率設定,但現在自動處理,因此通常不需要太多的注意.
由於Google改進了自動爬行率調整,並配合更廣泛的簡化使用者體驗的努力,Google正在結束對Search Console中爬行率限制器工具的支援.
搜尋控制檯中爬行率限制工具的計劃支援結束
它可能會對其他爬行者產生影響。
指定 Siteap: 引導爬行者和處理多個站點對映
您可以使用 Sitemat 指令指定 splemmap PH000s。 這有助於爬行者更容易地理解網站的結構,並提高爬行效率. 也可以指定多個站點地圖。 例項:物品: PH000和物品: PH000.
頁:1超級充電PH000:用sitemap.xml構建Google友好網站結構
第二章:實用機器人.txt例項

保護登入需要的頁面: 禁用: PH000
需要登入的內容,如僅成員網頁,一般應排除在搜尋引擎索引之外.
透過使用機器人.txt,可以防止爬行者訪問這些頁面,減少浪費的爬行. 例如,如果只儲存成員內容於 /member/, 寫入否定: PH000禁止訪問該位置下的每個檔案和子目錄。
然而,機器人.txt只是對爬行者的要求,因此惡意爬行者可能會忽略它.
真正的敏感資訊必須用伺服器側認證來保護,而不是機器人.txt. Robots.txt應作為限制爬行者和儲存伺服器資源的輔助方法. 在許多情況下,允許訪問登入頁本身是合適的,這樣爬行者才能理解需要認證.
控制引數化的PH000s: Disallow: /*?page=*.
引數化的PH000s有時可以使相同的內容在多PH000s下可以訪問,這些內容可以作為重複內容處理. 例如,如果您使用頁=pagination 的引數,您可能最終會得到像example.com/blog?page=1和example.com/blog?page=2這樣的頁面,這些頁面具有不同的PH000s但內容幾乎相同.
寫作否認: PH000*?p*=*.,您可以遮蔽每個包含頁面=引數的URL的訪問. 然而,這可以從搜尋引擎中移除所有標定內容,並可能傷害PH000.
更好的方法是使用犬科標記並指示犬科標記PH000. 如果每個 pagized 頁面指向首頁,例如 example.com/blog,並帶有一個cononical標籤,則可以避免重複內容問題,並將正確的頁面傳遞給搜尋引擎.
使用機器人.txt來控制pagination,當無法執行犬形標記時,應當作為最後手段處理.
控制特定爬行器: 使用者代理: YandexBot Disallow: PH000
使用使用者代理指令,您可以為不同的爬行者設定不同的規則. 如果你寫使用者代理: YandexBot並隨後否定: PH000只有YandexBot 會被封鎖整個網站 其他爬行者將遵循其他使用者代理欄目下設定的規則,或使用者代理 : *.
您可能想要控制特定爬行者的典型案例包括以下內容。
- 當一個特定的爬行者在伺服器上載入過多時
- 當一個特定的爬行者忽略機器人.txt並造成問題時
- 當您想要隱藏特定區域的內容時, 請從該區域沒有使用的搜尋引擎的爬行者處隱藏
在這些情況下和類似的情況下,使用者代理指令是有用的。 每個搜尋引擎的官方檔案中均可確認主要搜尋引擎爬行者的姓名。
第3章:機器人的注意和常見錯誤.txt

Robots.txt是一個強大的工具,但是不正確的設定會對網站產生嚴重後果. 本章解釋常見的錯誤和謹慎點,以便安全有效地使用機器人.txt.
3.1 機器人.txt錯誤造成的PH000損傷:從搜尋中脫落
在機器人.txt中最嚴重的錯誤是意外地阻擋了重要頁面的爬行.
例如,如果不允許產品頁面或服務頁面,這些頁面可能會脫離搜尋索引,從搜尋結果中消失。 這直接降低了網站流量,並可能嚴重損害PH000.
每當更換機器人.txt時,總是使用PH000中的機器人.txt測試工具確認只有預定的頁面被遮蔽. 更改後,繼續定期監控排名和流量,以便你能夠捕捉任何意外影響.
3.2 使用允許頁錯誤,您打算遮蔽
允許指令只應在您想要允許被 Disallow 遮蔽的部分位置時使用。 例如,如果您想要遮蔽 PH000但只允許 /private/public.html, 您將同時使用否定: PH000和允許: PH000.
僅對未被拒絕的區域使用許可沒有效果。 Crawlers一般認為每個頁面都是可訪問的,除非已經與Disallow一起被明確封鎖.
3.3 案件敏感性:密切注意
使用者代理,Disallow,允許,和PH000路徑都是對大小寫敏感的. 舉例來說,否決: PH000待遇不同於否定: PH000也不會如願以償
在寫機器人.txt時,始終使用正確的資本化,仔細檢查列印錯誤.
3.4 爬行者行為的差異:處理惡意爬行者
Robots.txt與Googlebot和Bingbot等善意的爬行者合作,但惡意爬行者可能會完全忽略它. 這意味著單靠機器人.txt無法保護敏感資訊.
真正保密的資訊必須受到伺服器側認證或訪問限制的保護. 你需要了解那個機器人。 txt只是控制合作爬行者的工具,不足以作為安全措施.
3.5 單靠機器人.txt不能提供安保
如上所述,機器人.txt不足以作為安全措施。 任何人都可以讀取機器人的內容. txt檔案,因此惡意使用者可能用它作為尋找禁區線索.
真正的安全需要一個分層的方法,結合多種方法,包括密碼保護,訪問控制列表,以及防火牆,而不僅僅是機器人.txt.
3.6 過度使用萬用字元造成的意外行為
諸如 * 和 $ 之類的通關卡使路徑匹配更加靈活, 但是過度使用它們可以遮蔽您從未想過要遮蔽的頁面。 舉例來說,否定: PH000*影象*不僅會遮蔽 /images/ 目錄,而且還會遮蔽 URL0 如 /article/my-image.jpg.
使用萬用字元時, 請仔細檢查其效果的全部範圍, 並確保您不會無意地遮蔽頁面。
3.7 機器人.txt 快取:反映變化前的延遲
搜尋引擎快取機器人.txt,所以變化並不總是立即反映. 即使您在編輯後立即使用測試工具進行檢查,結果也可能仍然是基於之前的版本.
在Google Search Console中,可以請求透過機器人.txt測試器再次獲取機器人.txt. 這將縮短快取更新和您的更改被反映之前的延遲。
透過遵循這些警告和正確配置機器人.txt,可以改進PH000,避免不必要的風險.
第4章:機器人.txt建立工具和核查方法

本章解釋瞭如何高效建立,測試和修改機器人.txt. 透過遵循這些步驟,可以防止出乎意料的錯誤,並最大限度地提高網站的效能.
4.1 使用機器人.txt建立工具
你可以手動寫作機器人.txt,但線上工具可以讓你更快地做,而且錯誤較少. 這些工具生成一個機器人. txt檔案在輸入必要的指令後會自動輸入,這有助於減少語法錯誤和規則錯誤.
代表性工具包括:
- PH000機器人.txt測試器:一個內建的搜尋控制檯工具,可以建立,編輯,並測試機器人.txt. 如果您已經使用搜尋控制檯, 這往往是最簡單的選擇。
- PH000 檢查工具 :一些PH000工具包括機器人.txt生成特性. 由於它們可以與其他PH000功能一起使用,在更廣義地最佳化一個站點時它們是方便的.
- 其他線上機器人.txt 發電機:如果你搜尋網路中的機器人.txt生成器,你會找到許多免費工具. 這些適合建立簡單的機器人.txt檔案.
哪個工具最好取決於您的需求和網站的大小。
4.2 PH000測試機器人.txt
一旦你建立了機器人.txt,你必須測試它,以驗證爬行者解釋正確. PH000提供了一種機器人.txt測試工具,可以顯示特定的URL是否可爬行,以及檔案中是否有錯誤.
試驗過程如下。
- 開啟PH000並選擇目標網站的屬性.
- 從左邊的選單中選擇機器人.txt測試器.
- 輸入您要測試的 PH000 並單擊測試按鈕。
- 審查PH000是否可爬行,以及正在適用何種指令。
無論何時更換機器人.txt,都使用這個工具,確認檔案是完全按照預期執行的.
4.3 審查和修理機器人.txt
因為機器人.txt被放置在網站的根目錄中,所以可以直接在瀏覽器中開啟,審查內容,必要時修改. 例如,訪問PH000將會顯示檔案.
更正時,在文字編輯器中開啟機器人.txt,進行必要的修改,然後上傳到伺服器. 由於搜尋引擎需要重新整理它們的快取,可能需要一點時間才能反映變化.
PH000中的機器人.txt測試器允許您同時編輯和測試,從而更容易在校正和校驗上進行腳步測試.
透過這些步驟,可以使機器人.txt保持最佳狀態,同時提高PH000和站點效能.
第5章:超越機器人的爬行者控制.txt

與元機器人標記的區別以及如何使用
元機器人標記用於單個頁面控制爬行者. 當與機器人.txt一起使用時,可以進行更精細的控制. 無索引指示搜尋引擎不要索引一個頁面,沒有後續指示它們不要跟蹤連結. 如果將無索引新增到同樣被遮蔽的頁面中,從而無法與機器人一起爬行.txt,在某些情況下,這可能有助於從搜尋結果中刪除一個已經索引的頁面.
用它與無索引和跟隨
您可以指定以逗號分隔的多個指令, 如 noindex, follow。
透過 X- Robots-Tag PH000 標題控制
透過在HTTP響應頭中使用X-Robots-Tag,也可以控制爬行非PH000檔案如PDF和影象. 這需要伺服器側配置。
目 錄
Robots.txt是PH000和網站效能不可或缺的工具.
當您理解本文章涵蓋的點並配置機器人時. txt正確,你可以抽出你網站的全部潛力. 重要的是要保持時態,不斷最佳化機器人.txt.
附錄:機器人.txt例項,包括高階例項
- 只允許特定爬行器的某些檔案型別 :
使用者代理: Googlebot- Image 允許: PH000*.jpg 允許: /images/*.png 否認: / 使用者代理 : * 否定: /images/
- 減緩特定爬行者的訪問 :
使用者代理: AhrefsBot 拖車:10次 使用者代理 : * 允許: PH000
利用這些先進的模式來最佳化您的網站,並將其推向成功.