私人论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1008|回复: 1

Robots 协议

[复制链接]

156

主题

303

帖子

1664

积分

新手上路

Rank: 1

积分
1664
发表于 2018-8-3 08:54:22 | 显示全部楼层 |阅读模式
全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。文件名为 robots.txt

示例:
User-agent: Googlebot
Disallow: /images/
Disallow: /temp/
Disallow: /cgi-bin/

User-agent: *
Disallow: /temp/


格式:
Allow 表示允许抓取;
Disallow 表示禁止抓取;
# 开头的行为注释;
* 匹配任意多个字符以;
$ 匹配结束字符;
先写具体爬虫规则,最后写全部爬虫规则。
回复

使用道具 举报

156

主题

303

帖子

1664

积分

新手上路

Rank: 1

积分
1664
 楼主| 发表于 2018-8-3 09:43:57 | 显示全部楼层
#百度蜘蛛
User-agent: Baiduspider
#百度图片蜘蛛
User-agent: Baiduspider-image
#谷歌蜘蛛
User-agent: Googlebot
#必应蜘蛛(微软)
User-agent: MSNBot
#神马搜索蜘蛛(阿里)
User-agent: yisouspider
#360蜘蛛
User-agent: 360Spider
User-agent: HaoSouSpider
#360图片蜘蛛
360Spider-Image
#360视频蜘蛛
360Spider-Video
#有道蜘蛛(网易)
User-agent: YoudaoBot
#搜狗蜘蛛(搜狐)
User-agent: Sogou web spider
User-agent: Sogou inst spider
User-agent: Sogou spider2
User-agent: Sogou blog
User-agent: Sogou News Spider
User-agent: Sogou Orion spider
#SOSO蜘蛛(腾讯)
User-agent: Sosospider
#中国搜索蜘蛛(中央)
User-agent: ChinasoSpider
#宜搜蜘蛛
User-agent: EasouSpider
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|私人论坛

GMT+8, 2026-2-20 10:12 , Processed in 0.056085 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表