Robots.txt文件生成工具
限制目录 (每个目录必须以/开头)
Sitemap 文件 (留空为无)
检索间隔 (单位秒)留空为不限
所有搜索引擎
允许
拒绝
国内搜索引擎
百度爬虫
默认
允许
拒绝
搜狗爬虫
默认
允许
拒绝
有道爬虫
默认
允许
拒绝
SOSO爬虫
默认
允许
拒绝
头条爬虫
默认
允许
拒绝
神马爬虫
默认
允许
拒绝
国外搜索引擎
Google爬虫
默认
允许
拒绝
Bing爬虫
默认
允许
拒绝
雅虎爬虫
默认
允许
拒绝
Ask/Teoma爬虫
默认
允许
拒绝
Alexa爬虫
默认
允许
拒绝
MSN爬虫
默认
允许
拒绝
Scrub The Web爬虫
默认
允许
拒绝
DMOZ爬虫
默认
允许
拒绝
GigaBlast爬虫
默认
允许
拒绝
MJ12 爬虫
默认
允许
拒绝
Maui 爬虫
默认
允许
拒绝
BLEX 爬虫
默认
允许
拒绝
Ahrefs 爬虫
默认
允许
拒绝
Dot 爬虫
默认
允许
拒绝
Semrush 爬虫
默认
允许
拒绝
MegaIndex.ru 爬虫
默认
允许
拒绝
华为花瓣 爬虫
默认
允许
拒绝
Zoominfo 爬虫
默认
允许
拒绝
ExtLinks 爬虫
默认
允许
拒绝
俄罗斯 爬虫
默认
允许
拒绝
特殊搜索引擎
Google Image爬虫
默认
允许
拒绝
Google Mobile爬虫
默认
允许
拒绝
Yahoo MM爬虫
默认
允许
拒绝
Yahoo Blogs爬虫
默认
允许
拒绝
MSN PicSearch爬虫
默认
允许
拒绝
Robots.txt文件生成工具

在线robots.txt文件生成工具,可以帮助站长快速生成标准的robots.txt文件,支持一键导出,直接传到网站根目录即可。

小经验:强烈建议每个站根目录都放置一个robots.txt的文件,可以直接留空,但一定要放,避免因程序问题导致/robots.txt返回其他错误响应内容造成不可预知的结果,如搜索引擎不收录等。

Robots协议(爬虫协议)是国际互联网界通行的道德规范,一般是在一个web站点的根目录下写的robots.txt文件,用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取,可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

robots.txt基本用法

User-agent

User-agent是用来匹配爬虫的,每个爬虫都会有一个名字,如果你有安装awstats统计工具,你就能查看到爬虫的名字,比如百度的爬虫叫BaiDuSpider,Google的爬虫叫Googlebot,*表示所有爬虫。

Disallow

Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

Allow

Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

Sitemap

Sitemap用来指定sitemap的位置。

Crawl-delay

Crawl-delay用来告诉爬虫两次访问的间隔,单位是秒。爬虫如果爬得很勤,对动态网站来说,压力有点大,可能会导致服务器负载增高,用户访问变慢。

还可以使用通配符

*:匹配任意多个字符

$:表示URL的结尾

Robots.txt举例

不管是Disallow,Allow还是Sitemap,每行只能写一条规则。

拦截部分文件或目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /aaa.html

允许爬虫访问所有的目录,有两种写法

User-agent: *

Disallow:

User-agent: *

Allow: /

通配符的使用,拦截.gif文件

User-agent: *

Disallow: /*.gif$

拦截带有?的文件

User-agent: *

Disallow: /*?

Sitemap例子

Sitemap: https://www.h43.cn/sitemap.xml