无耻华为云蜘蛛频繁爬取网站,如何屏蔽PetalBot蜘蛛办法分享
本人有一个 小网站,后台可以查看蜘蛛数据,经常发现有许多国外蜘蛛爬取。作为一个面向国内特定地域用户的网站,着实用不着那些蜘蛛来消耗资源,网上找到一段Nginx配置代码,加上后很灵敏,那些国外蜘蛛第二天就不来了。
if ($http_user_agent ~* (SemrushBot|python|Linespider|crawler|DingTalkBot|simplecrawler|ZoominfoBot|zoombot|Neevabot|coccocbot|Facebot|YandexBot|Adsbot|DotBot|Applebot|DataForSeoBot|MJ12bot|BLEXBot|trendictionbot0|trendictionbot|AhrefsBot|hubspot|opensiteexplorer|leiki|webmeup)) { return 444; }
不过这几天又冒出来许多莫名其妙的蜘蛛,以114.119和114.225IP段开头,查询IP地址为新加坡华为云,例如
114.119.138.230
114.119.147.58
111.225.148.21
111.225.149.167
114.119.150.127
114.119.147.204
110.249.202.33
114.119.159.33
114.119.156.190
114.119.135.207
114.119.135.166
111.225.149.206
111.225.149.38
114.119.157.128
111.225.148.238
114.119.140.206
114.119.157.174
114.119.154.118
114.119.128.77
114.119.154.11
由于都是华为云IP,网上搜素华为蜘蛛相关关键词,找到一篇文章:华为搜索爬虫不遵守协议高频抓爬如DDoS攻击让国内外许多网站痛苦不堪
看来华为蜘蛛黑历史早就有之。然后我查看网站log,发现该蜘蛛名字为PetalBot,中文名翻译过来就是华为花瓣搜索引擎蜘蛛。PetalBot介绍参考资料
PetalBot 是 Petal 搜索引擎(华为花瓣搜索引擎)的自动程序。PetalBot 的功能是访问 PC 网站和移动网站,并建立索引数据库,使用户可以在 Petal 搜索引擎中搜索您网站的内容。
在宝塔网站配置代码屏蔽蜘蛛名称中加入PetalBot蜘蛛,看还会不会过来。如果华为搜素引擎不遵守国际通行屏蔽规则,则堪称奇葩,必将遭到万众唾弃,本人也将采用别的屏蔽办法。
版权声明:本文由指尖十年发布,如需转载请注明出处,如有问题可在下面留言。
本站提供的一切软件、教程和内容信息来自网络收集整理,版权争议与本站无关,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系。