说明:垃圾蜘蛛对网站的页面爬取也占带宽还有就是空UA类的采集也占,对这些个情况进行屏蔽。
禁止空USER_AGENT:
禁止空USER_AGENT提高安全性,主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT。
禁止垃圾蜘蛛爬取:
禁止垃圾蜘蛛爬取节约CPU、内存、带宽,垃圾蜘蛛:爬了也不收录,收录了也没流量,爬取的不一定是搜索引擎。
设置方法:
复选框都打上勾保存即可。
验证方式:
在Linux系统提示符下,我们以模拟蜘蛛抓取的方式进行验证:
1.空UA举例
curl -I -A '' www.yousite.com
输出如下图:
2.禁止的蜘蛛举例
curl -I -A 'YandexBot' www.yousite.com
输出如下图:
3.未禁止的蜘蛛举例
curl -I -A 'Googlebot' www.yousite.com
输出如下图: