如何重新提交更新或新的Robots.txt文件

机器人txt

我们的代理机构 自然搜索咨询 适用于行业中的多家SaaS供应商。 我们最近开始与之合作的一位客户已经做了相当标准的实践,将他们的应用程序放在一个子域上,并将其宣传册站点移到了核心域。 这是一种标准做法,因为它使您的生产团队和市场营销团队都可以根据需要进行更新,而无需彼此依赖。

作为分析其自然搜索健康的第一步,我们在网站管理员中注册了手册和应用程序域。 到那时,我们发现了一个迫在眉睫的问题。 所有应用程序页面都被搜索引擎禁止索引。 我们导航到网站站长中的他们的robots.txt条目,并立即发现了问题。

在准备迁移时,他们的开发团队不希望通过搜索为应用程序子域建立索引,因此他们不允许访问搜索引擎。 robots.txt文件是在您网站的根目录中找到的文件– yourdomain.com/robots.txt –让搜索引擎知道是否应该对网站进行爬网。 您可以编写规则以允许或禁止在整个站点或特定路径上建立索引。 您还可以添加一行以指定您的站点地图文件。

的robots.txt 文件具有以下条目,该条目阻止网站被爬网并在搜索结果排名中建立索引:

用户代理:*不允许:/

它应该被编写如下:

用户代理:*允许:/

后者为所有搜寻该网站的搜索引擎提供许可,使他们可以访问该网站中的任何目录或文件。

太好了,所以现在 的robots.txt 文件是完美的,但是Google如何知道以及他们何时会再次检查该网站? 好吧,您可以绝对要求Google检查您的robots.txt,但这不是很直观。

导航到 谷歌搜索控制台搜索控制台抓取> robots.txt测试器。 您将在测试仪中看到最近抓取的robots.txt文件的内容。 如果您想重新提交robots.txt文件,请单击“提交”,然后会弹出一个对话框,提供一些选项。

重新提交robots.txt

最后的选择是 要求Google更新。 单击该选项旁边的蓝色“提交”按钮,然后导航回到 抓取> robots.txt测试器 菜单选项以重新加载页面。 现在,您应该会看到更新后的robots.txt文件以及一个日期戳,表明它已再次被爬网。

如果没有看到更新的版本,则可以单击提交并选择 查看上传的版本 导航到实际的robots.txt文件。 许多系统将缓存此文件。 实际上,IIS根据通过用户界面输入的规则动态生成此文件。 您很可能必须更新规则并刷新缓存以发布新的robots.txt文件。

机器人-txt-测试员

你觉得呢?

本网站使用Akismet来减少垃圾邮件。 了解您的数据如何处理.