最近分析内部反代服务器的时候发现 Nginx 日志的上面有 BingBot,感觉内部的一些服务还是比较敏感的。不适合出现在搜索引擎里面的,于是通过在反代服务器上面添加一个 robots.txt 文件禁止爬取内部的服务器。

操作方法很差简单,打开要屏蔽蜘蛛的配置文件,在server {} 块中添加下面的配置:

第一种方法:

    location =/robots.txt {
        default_type text/html;
        add_header Content-Type "text/plain; charset=UTF-8";
        return 200 "User-Agent: *nDisallow: /";
    }

第二种方法:

下面任选其一,需要先在目录里面写好 Robotx.txt 文件,配置文件很多个的话,可以都引用一个 Robotx.txt

location /robots.txt { root /home/www/html/;  }

在线测试robots.txt是否生效

可以到百度Bing 谷歌等站长后台更新并提交。

robots.txt文件生成工具:http://tool.chinaz.com/robots/

其他网站参考:

https://www.tmall.com/robots.txt

https://www.qq.com/robots.txt