如何屏蔽搜狗搜索/头条搜索/花瓣搜索/360搜索等爬虫方法

百度已收录   阅读次数: 321
2022-04-2310:04:22 发表评论
摘要

伯衡君近日查看后台访问记录,经常看到有些爬虫同一时段大批量访问,造成短时间内处理器运行不稳,甚至是宕机的可能,毕竟是小容量主机,禁不住这种“攻击”,大致排查了一下,大多是搜狗搜索,头条搜索,花瓣搜索等这种在世界不入流的搜索引擎的爬虫导致的,相当于DDOS攻击了,于是,屏蔽这些爬虫就被提上了议程,该如何设置呢?请看本篇……

如何屏蔽搜狗搜索/头条搜索/花瓣搜索/360搜索等爬虫方法

开篇寄语

伯衡君近日查看后台访问记录,经常看到有些爬虫同一时段大批量访问,造成短时间内处理器运行不稳,甚至是宕机的可能,毕竟是小容量主机,禁不住这种“攻击”,大致排查了一下,大多是搜狗搜索,头条搜索,花瓣搜索等这种在世界不入流的搜索引擎的爬虫导致的,相当于DDOS攻击了,于是,屏蔽这些爬虫就被提上了议程,该如何设置呢?请看本篇。

内容详情

其实也非常简单,只需要修改一下 robot.txt 文本里面的内容即可,至于什么是 robot.txt,可以使用搜索一下,简单来说就是告诉搜索引擎,可以爬取什么,不可爬取什么,什么搜索引擎可以爬取站点内容,什么搜索引擎不可以。

伯衡君就为了屏蔽这些搜索引擎爬虫,在该文本中增加了以下内容:

User-agent: 360Spider
User-agent: Yisouspider
User-agent: PetalBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Sogou web spider
Disallow: /

User-agent: Sogou inst spider
Disallow: /

附赠一些其他搜索引擎的代指名,有需要的朋友可以自行屏蔽不要的搜索引擎爬虫。

Search EngineUser AgentReverse DNS Lookup
BaiduBaiduspiderbaiduspider-*-*-*-*.crawl.baidu.com.
SogouSogou web spidersogouspider-*-*-*-*.crawl.sogou.com
Byte DanceBytespiderbytespider-*-*-*-*.crawl.bytedance.com
ShenmaYisouspidershenmaspider-*-*-*-*.crawl.sm.cn
HuaweiPetalBotpetalbot-*-*-*-*.aspiegel.com
LINE (Naver)Linespidercrawl.*-*-*-*.search.line-apps.com
NaverYeticrawl.*-*-*-*.web.naver.com
Cốc Cốccoccocbotbot-*-*-*-*.coccoc.com
QwantQwantifyqwantbot-*-*-*-*.qwant.com
AppleApplebot*-*-*-*.applebot.apple.com
TwitterTwitterbotr-*-*-*-*.twttr.com
Facebookfacebookexternalhitfwdproxy-*-*.fbsv.net
分享至:
  • 我的微信
  • 微信扫一扫加好友
  • weinxin
  • 我的微信公众号
  • 扫描关注公众号
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: