用 robots.txt 提升 SEO:透過更聰明的爬蟲控制改善網站效能
Crawler Control在PH000和网站性能上都发挥了重要作用. 搜索引擎爬行者通过网站移动并收集信息,这样他们就可以检索搜索结果中显示页面所需的数据. 通过适当控制爬行者行为,可以提高PH000结果和站点性能.
中心工具是机器人.txt. 这篇文章深入解释了机器人.txt,从基本到实际使用,谨慎点,以及先进的技术,以便你能够真正地精通.

第一章:机器人的基本知识.txt

什么是机器人.txt吗? 爬行者控制如何运作
Robots.txt是一个放在网站根目录中的纯文本文件. 它告诉爬行者他们可能爬到哪些地点,哪些地方不应该爬.
当一个爬行者访问一个网站时,它通常先阅读机器人.txt,然后根据这些指令爬行网站. Robots.txt是对爬行者的要求,不是强力挡板,但主要的搜索引擎确实尊重它. 然而,由于恶意爬行者和一些其他bots可能会忽略机器人.txt,因此你永远不应该依靠它来保护机密信息.
将机器人.txt、文件格式和字符集放置在哪里
Robots.txt必须放置在网站的根目录中,例如PH000
如果你把它放在子目录里,那就行不通了。 文件名称也必须是小写机器人. txt.
文件格式必须是纯文本,强烈推荐PH0008编码. 如果使用其他编码,爬行者可能无法正确解释文件.
基本语法: 用户代理、 取消、 允许和规则细节
Robots.txt的写法带有用户代理,Disallow,和允许等指令. 这些指令注重个案,每行写一份。
User-agent:
指定一条规则适用于哪个爬行者。 您可以为每个爬行者指定一个特定的爬行者或使用 *。 通过声明多个用户代理行,可以定义不同爬行者的不同规则. 实例:
用户代理: Googlebot, (中文).
用户代理:宾博, (中文).
用户代理 : *.
Disallow:
指定不可爬行的路径。 它被写成一个相对的路径 从斜线开始。 虚空的Disallow线意味着一切被允许. 实例:
否定: PH000, (中文).
Disallow:.
Allow:
指定可爬行的路径。 它在您想要允许用 Disallow 屏蔽的部分位置时被使用。 在这种情况下,允许规则优先于Disallow。 示例
否定: PH000和
允许: PH000.
如何使用通配符(*)和(美元):灵活路径匹配和高级使用
星号匹配任意字符串。 比如说,否定: PH000*.pdf屏蔽每个 PH000 文件,以及残废: PH000*.jpg$在 /images/0 目录下只设置 JPG 文件。
美元标志与一行的终点相符. 比如说,残疾:000菲律宾比索块访问 PH000 目录本身, 同时仍然允许地址如 /blog/article1/.
设置 crawl- 延迟: 减少服务器载荷及其对 Googlebot 的影响
用 Crawl-delay 指令,您可以在秒内指定爬行请求之间的间隔。 这在服务器加载量高时会有所帮助,但Googlebot并不正式支持Crawl-delay. Google先前在Search Console中推荐的爬行率设置,但现在自动处理,因此通常不需要太多的注意.
由于Google改进了自动爬行率调整,并配合更广泛的简化用户体验的努力,Google正在结束对Search Console中爬行率限制器工具的支持.
搜索控制台中爬行率限制工具的计划支持结束
它可能会对其他爬行者产生影响。
指定 Siteap: 引导爬行者和处理多个站点映射
您可以使用 Sitemat 指令指定 splemmap PH000s。 这有助于爬行者更容易地理解网站的结构,并提高爬行效率. 也可以指定多个站点地图。 实例:物品: PH000和物品: PH000.
页:1
超级充电PH000:用sitemap.xml构建Google友好网站结构
第二章:实用机器人.txt实例

保护登录需要的页面: 禁用: PH000
需要登录的内容,如仅成员网页,一般应排除在搜索引擎索引之外.
通过使用机器人.txt,可以防止爬行者访问这些页面,减少浪费的爬行. 例如,如果只存储成员内容于 /member/, 写入否定: PH000禁止访问该位置下的每个文件和子目录。
然而,机器人.txt只是对爬行者的要求,因此恶意爬行者可能会忽略它.
真正的敏感信息必须用服务器侧认证来保护,而不是机器人.txt. Robots.txt应作为限制爬行者和保存服务器资源的辅助方法. 在许多情况下,允许访问登录页本身是合适的,这样爬行者才能理解需要认证.
控制参数化的PH000s: Disallow: /*?page=*.
参数化的PH000s有时可以使相同的内容在多PH000s下可以访问,这些内容可以作为重复内容处理. 例如,如果您使用页=pagination 的参数,您可能最终会得到像example.com/blog?page=1和example.com/blog?page=2这样的页面,这些页面具有不同的PH000s但内容几乎相同.
写作否认: PH000*?p*=*.,您可以屏蔽每个包含页面=参数的URL的访问. 然而,这可以从搜索引擎中移除所有标定内容,并可能伤害PH000.
更好的方法是使用犬科标记并指示犬科标记PH000. 如果每个 pagized 页面指向首页,例如 example.com/blog,并带有一个cononical标签,则可以避免重复内容问题,并将正确的页面传递给搜索引擎.
使用机器人.txt来控制pagination,当无法执行犬形标记时,应当作为最后手段处理.
控制特定爬行器: 用户代理: YandexBot Disallow: PH000
使用用户代理指令,您可以为不同的爬行者设定不同的规则. 如果你写用户代理: YandexBot并随后否定: PH000只有YandexBot 会被封锁整个网站 其他爬行者将遵循其他用户代理栏目下设定的规则,或用户代理 : *.
您可能想要控制特定爬行者的典型案例包括以下内容。
当一个特定的爬行者在服务器上加载过多时
当一个特定的爬行者忽略机器人.txt并造成问题时
当您想要隐藏特定区域的内容时, 请从该区域没有使用的搜索引擎的爬行者处隐藏
在这些情况下和类似的情况下,用户代理指令是有用的。 每个搜索引擎的官方文件中均可确认主要搜索引擎爬行者的姓名。
第3章:机器人的注意和常见错误.txt

Robots.txt是一个强大的工具,但是不正确的设置会对网站产生严重后果. 本章解释常见的错误和谨慎点,以便安全有效地使用机器人.txt.
3.1 机器人.txt错误造成的PH000损伤:从搜索中脱落
在机器人.txt中最严重的错误是意外地阻挡了重要页面的爬行.
例如,如果不允许产品页面或服务页面,这些页面可能会脱离搜索索引,从搜索结果中消失。 这直接降低了网站流量,并可能严重损害PH000.
每当更换机器人.txt时,总是使用PH000中的机器人.txt测试工具确认只有预定的页面被屏蔽. 更改后,继续定期监控排名和流量,以便你能够捕捉任何意外影响.
3.2 使用允许页错误,您打算屏蔽
允许指令只应在您想要允许被 Disallow 屏蔽的部分位置时使用。 例如,如果您想要屏蔽 PH000但只允许 /private/public.html, 您将同时使用否定: PH000和允许: PH000.
仅对未被拒绝的区域使用许可没有效果。 Crawlers一般认为每个页面都是可访问的,除非已经与Disallow一起被明确封锁.
3.3 案件敏感性:密切注意
用户代理,Disallow,允许,和PH000路径都是对大小写敏感的. 举例来说,否决: PH000待遇不同于否定: PH000也不会如愿以偿
在写机器人.txt时,始终使用正确的资本化,仔细检查打印错误.
3.4 爬行者行为的差异:处理恶意爬行者
Robots.txt与Googlebot和Bingbot等善意的爬行者合作,但恶意爬行者可能会完全忽略它. 这意味着单靠机器人.txt无法保护敏感信息.
真正保密的信息必须受到服务器侧认证或访问限制的保护. 你需要了解那个机器人。 txt只是控制合作爬行者的工具,不足以作为安全措施.
3.5 单靠机器人.txt不能提供安保
如上所述,机器人.txt不足以作为安全措施。 任何人都可以读取机器人的内容. txt文件,因此恶意用户可能用它作为寻找禁区线索.
真正的安全需要一个分层的方法,结合多种方法,包括密码保护,访问控制列表,以及防火墙,而不仅仅是机器人.txt.
3.6 过度使用通配符造成的意外行为
诸如 * 和 $ 之类的通关卡使路径匹配更加灵活, 但是过度使用它们可以屏蔽您从未想过要屏蔽的页面。 举例来说,否定: PH000*图像*不仅会屏蔽 /images/ 目录,而且还会屏蔽 URL0 如 /article/my-image.jpg.
使用通配符时, 请仔细检查其效果的全部范围, 并确保您不会无意地屏蔽页面。
3.7 机器人.txt 缓存:反映变化前的延迟
搜索引擎缓存机器人.txt,所以变化并不总是立即反映. 即使您在编辑后立即使用测试工具进行检查,结果也可能仍然是基于之前的版本.
在Google Search Console中,可以请求通过机器人.txt测试器再次获取机器人.txt. 这将缩短缓存更新和您的更改被反映之前的延迟。
通过遵循这些警告和正确配置机器人.txt,可以改进PH000,避免不必要的风险.
第4章:机器人.txt创建工具和核查方法

本章解释了如何高效创建,测试和修改机器人.txt. 通过遵循这些步骤,可以防止出乎意料的错误,并最大限度地提高网站的性能.
4.1 使用机器人.txt创建工具
你可以手动写作机器人.txt,但在线工具可以让你更快地做,而且错误较少. 这些工具生成一个机器人. txt文件在输入必要的指令后会自动输入,这有助于减少语法错误和规则错误.
代表性工具包括:
PH000机器人.txt测试器:
一个内置的搜索控制台工具,可以创建,编辑,并测试机器人.txt. 如果您已经使用搜索控制台, 这往往是最简单的选择。
PH000 检查工具 :
一些PH000工具包括机器人.txt生成特性. 由于它们可以与其他PH000功能一起使用,在更广义地优化一个站点时它们是方便的.
其他在线机器人.txt 发电机:
如果你搜索网络中的机器人.txt生成器,你会找到许多免费工具. 这些适合创建简单的机器人.txt文件.
哪个工具最好取决于您的需求和网站的大小。
4.2 PH000测试机器人.txt
一旦你创建了机器人.txt,你必须测试它,以验证爬行者解释正确. PH000提供了一种机器人.txt测试工具,可以显示特定的URL是否可爬行,以及文件中是否有错误.
试验过程如下。
打开PH000并选择目标网站的属性.
从左边的菜单中选择机器人.txt测试器.
输入您要测试的 PH000 并单击测试按钮。
审查PH000是否可爬行,以及正在适用何种指令。
无论何时更换机器人.txt,都使用这个工具,确认文件是完全按照预期运行的.
4.3 审查和修理机器人.txt
因为机器人.txt被放置在网站的根目录中,所以可以直接在浏览器中打开,审查内容,必要时修改. 例如,访问PH000将会显示文件.
更正时,在文本编辑器中打开机器人.txt,进行必要的修改,然后上传到服务器. 由于搜索引擎需要刷新它们的缓存,可能需要一点时间才能反映变化.
PH000中的机器人.txt测试器允许您同时编辑和测试,从而更容易在校正和校验上进行脚步测试.
通过这些步骤,可以使机器人.txt保持最佳状态,同时提高PH000和站点性能.
第5章:超越机器人的爬行者控制.txt

与元机器人标记的区别以及如何使用
元机器人标记用于单个页面控制爬行者. 当与机器人.txt一起使用时,可以进行更精细的控制. 无索引指示搜索引擎不要索引一个页面,没有后续指示它们不要跟踪链接. 如果将无索引添加到同样被屏蔽的页面中,从而无法与机器人一起爬行.txt,在某些情况下,这可能有助于从搜索结果中删除一个已经索引的页面.
用它与无索引和跟随
您可以指定以逗号分隔的多个指令, 如 noindex, follow。
通过 X- Robots-Tag PH000 标题控制
通过在HTTP响应头中使用X-Robots-Tag,也可以控制爬行非PH000文件如PDF和图像. 这需要服务器侧配置。
目 录
Robots.txt是PH000和网站性能不可或缺的工具.
当您理解本文章涵盖的点并配置机器人时. txt正确,你可以抽出你网站的全部潜力. 重要的是要保持时态,不断优化机器人.txt.
附录:机器人.txt实例,包括高级实例
只允许特定爬行器的某些文件类型 :
用户代理: Googlebot- Image 允许: PH000*.jpg 允许: /images/*.png 否认: / 用户代理 : * 否定: /images/
减缓特定爬行者的访问 :
用户代理: AhrefsBot 拖车:10次 用户代理 : * 允许: PH000
利用这些先进的模式来优化您的网站,并将其推向成功.