开篇寄语
伯衡君近日查看后台访问记录,经常看到有些爬虫同一时段大批量访问,造成短时间内处理器运行不稳,甚至是宕机的可能,毕竟是小容量主机,禁不住这种“攻击”,大致排查了一下,大多是搜狗搜索,头条搜索,花瓣搜索等这种在世界不入流的搜索引擎的爬虫导致的,相当于DDOS攻击了,于是,屏蔽这些爬虫就被提上了议程,该如何设置呢?请看本篇。
内容详情
其实也非常简单,只需要修改一下 robot.txt 文本里面的内容即可,至于什么是 robot.txt,可以使用搜索一下,简单来说就是告诉搜索引擎,可以爬取什么,不可爬取什么,什么搜索引擎可以爬取站点内容,什么搜索引擎不可以。
伯衡君就为了屏蔽这些搜索引擎爬虫,在该文本中增加了以下内容:
User-agent: 360Spider User-agent: Yisouspider User-agent: PetalBot Disallow: / User-agent: Bytespider Disallow: / User-agent: Sogou web spider Disallow: / User-agent: Sogou inst spider Disallow: /
附赠一些其他搜索引擎的代指名,有需要的朋友可以自行屏蔽不要的搜索引擎爬虫。
Search Engine | User Agent | Reverse DNS Lookup |
---|---|---|
Baidu | Baiduspider | baiduspider-*-*-*-*.crawl.baidu.com. |
Sogou | Sogou web spider | sogouspider-*-*-*-*.crawl.sogou.com |
Byte Dance | Bytespider | bytespider-*-*-*-*.crawl.bytedance.com |
Shenma | Yisouspider | shenmaspider-*-*-*-*.crawl.sm.cn |
Huawei | PetalBot | petalbot-*-*-*-*.aspiegel.com |
LINE (Naver) | Linespider | crawl.*-*-*-*.search.line-apps.com |
Naver | Yeti | crawl.*-*-*-*.web.naver.com |
Cốc Cốc | coccocbot | bot-*-*-*-*.coccoc.com |
Qwant | Qwantify | qwantbot-*-*-*-*.qwant.com |
Apple | Applebot | *-*-*-*.applebot.apple.com |
Twitterbot | r-*-*-*-*.twttr.com | |
facebookexternalhit | fwdproxy-*-*.fbsv.net |
- 我的微信
- 微信扫一扫加好友
- 我的微信公众号
- 扫描关注公众号