当前位置:首页 > 建站技术 > 正文内容

如何封禁AhrefsBot,SemrushBot,MJ12bot等垃圾蜘蛛爬虫

二向箔2022-08-07 09:11:43建站技术1821

AhrefsBot,SemrushBot,MJ12bot等蜘蛛都是国外做网站第三方分析的平台(类似于国内的站长工具),分析的数据(网站内链,外链,历史,权重等)提供给做谷歌SEO的人员使用,按说不屏蔽也没什么关系。

但是如果他爬取频率太高,影响了网站正常的访问,或者给网站服务器造成很大的压力,那么我们可以选择直接屏蔽掉这些蜘蛛

1,采用robots.txt 文件来屏蔽

User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: YandexBot
Disallow: /

如果还有其他蜘蛛再往下面添加即可,但是robots.txt 文件只是约定俗成的文件,也有很多蜘蛛不会遵守规则,如果你的网站是linux  Nginx服务器,那么可以采用下面这种方式。


2,如果是Nginx服务器,可以在网站的配置文件里面加上这段代码

if ($http_user_agent ~* (SemrushBot|MJ12bot|AhrefsBot|DotBot|YandexBot)) {
return 403;
}

这样蜘蛛再来的时候抓取不到数据,就不会再来了。百度,搜狗,神马,头条等国内搜索引擎的蜘蛛不受影响


3,直接封禁爬虫的IP地址,这种方式简单粗暴,立竿见影。


例如:官方公布的AhrefsBot爬虫IP段如下:


54.36.148.0/24

54.36.149.0/24

54.36.150.0/24


195.154.122.0/24

195.154.123.0/24

195.154.126.0/24

195.154.127.0/24


如果你使用的是阿里云服务器,找到阿里云服务器安全组,配置入网方向IP地址禁入

ban-AhrefsBot-ip.png


扫描二维码推送至手机访问。

版权声明:本站内容为原创和部分整理自网络,如有侵权务必联系我们删除,保障您的权益,本站所有软件资料仅供学习研究使用,不可进行商业用途和违法活动,本站不承担任何法律责任。

本文链接:https://www.erxbo.com/post/35.html

标签: 蜘蛛屏蔽
分享给朋友:

“如何封禁AhrefsBot,SemrushBot,MJ12bot等垃圾蜘蛛爬虫” 的相关文章

文件路径(引用路径)./和../以及/是什么意思

/ :表示当前路径的根路径(绝对路径)./ :表示当前路径../ :表示父级路径,当前路径所在的上一级路径举个栗子:1、文件在当前目录(以图像文件为例,当前项目文件为中心)"./1.jpg" 或 "1.jpg"2、文件在上层目录(1)在上层目录下"....

thinkphp3.2.3 验证码图片加载不出来,可能是空行导致的!

thinkphp3.2.3 验证码图片加载不出来,可能是空行导致的!

网站被黑之后,开始排查问题,查杀完木马之后,一直没出过问题的验证码出现了问题,加载不出来了,重新覆盖了一遍核心文件依然不行。最后发现是入口文件index.php里面第一行空了出来,木马代码删除之后没有把空行去掉,去掉之后验证码功能恢复正常。原理暂时没弄清楚,但是确实解决了验证码加载不出来的问题。...

帝国cms更改网站栏目目录后信息页无法打开解决办法

帝国cms更改网站栏目目录后信息页无法打开解决办法

帝国网站在更改网站的栏目目录名称或者路径之后,重新生成静态数据之后,旧的页面路径依然存在,并且还打不开,新的路径也无法访问原因是数据库中的路径没有更新。解决方法:网站后台选择,系统 -> 数据更新 ->更新信息页地址更新完成之后,在重新生成一边静态文件。就可以访问了...

宝塔面板手动升级从5.9平滑升级到6.x以上版本

兼容的操作系统:Centos7.x升级方式:使用命令升级注意:    1、Centos6请勿执行此升级命令    2、升级过程耗时较长且可能会受网络因素影响导致升级失败    3、如果升级后无法正常启动面板,请重新执行升级命令 ...

宝塔Nginx报错:nginx: the configuration file /www/server/nginx/conf/nginx.conf syntax is ok 解决方法

宝塔Nginx报错:nginx: the configuration file /www/server/nginx/conf/nginx.conf syntax is ok 解决方法

网站在运行过程中出现服务器Nginx停止,点击重启之后无法重启并出现报错:nginx: the configuration file /www/server/nginx/conf/nginx.conf syntax is ok&n...

windows11中如何删除"$WINDOWS.~BT"文件夹

windows11中如何删除"$WINDOWS.~BT"文件夹

注意方法失效,此种方式并不能删除文件夹官方的安全做法是,以管理员权限打开cmd。将下面三条指令依次复制粘贴在cmd中并执行,就能成功删除"$WINDOWS.~BT"文件夹:takeown /F C:\$Windows.~BT\* /R /A...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。