WordPress的robots.txt是一个位于网站根目录的文本文件,用于告诉搜索引擎爬虫哪些内容可以抓取,哪些不应该抓取。对于WordPress博客,正确配置robots.txt可以帮助优化搜索引擎索引。
 

1. WordPress默认robots.txt

WordPress会自动生成一个基本的robots.txt文件,内容通常如下:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

这表示:

  • 对所有搜索引擎爬虫(User-agent: *)有效

  • 禁止抓取/wp-admin/后台目录

  • 但允许抓取/wp-admin/admin-ajax.php(WordPress的AJAX处理文件)

2. 自定义robots.txt的几种方法

方法1:通过Yoast SEO等SEO插件设置

许多SEO插件(如Yoast SEO、All in One SEO)提供了robots.txt编辑功能:

  1. 安装并激活SEO插件

  2. 进入插件设置找到"工具"或"文件编辑器"

  3. 编辑并保存robots.txt内容

方法2:手动创建robots.txt文件

  1. 使用文本编辑器(如记事本)创建一个新文件

  2. 将文件命名为robots.txt(全部小写)

  3. 通过FTP或主机文件管理器上传到WordPress安装的根目录(通常是public_html或www文件夹)

方法3:通过functions.php添加

可以在主题的functions.php文件中添加代码动态生成robots.txt:

add_filter('robots_txt', 'custom_robots_txt', 10, 2);
function custom_robots_txt($output, $public) {
    $output = "User-agent: *\n";
    $output .= "Disallow: /wp-admin/\n";
    $output .= "Allow: /wp-admin/admin-ajax.php\n";
    $output .= "Disallow: /wp-includes/\n";
    $output .= "Allow: /wp-includes/js/\n";
    $output .= "Sitemap: ".get_site_url()."/sitemap_index.xml\n";
    return $output;
}

3. 推荐WordPress博客robots.txt内容

以下是一个优化的robots.txt示例:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Allow: /wp-includes/js/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /?s=*
Disallow: /*?*
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.inc$
Disallow: /*.gz$

Sitemap: https://您的域名.com/sitemap_index.xml

4. 注意事项

  1. 测试工具:使用Google Search Console的robots.txt测试工具验证文件

  2. 大小写敏感:确保文件名是robots.txt而非Robots.TXT

  3. 位置正确:必须放在网站根目录

  4. 更新缓存:修改后可能需要等待搜索引擎更新

  5. 不要过度限制:避免错误地阻止搜索引擎抓取重要内容

5. 高级用法

针对特定搜索引擎

User-agent: Googlebot
Disallow: /private/

User-agent: Bingbot
Disallow: /images/

允许特定目录

User-agent: *
Allow: /public-articles/
Allow: /images/logo.jpg

指定网站地图

可以添加多个sitemap:

Sitemap: https://您的域名.com/sitemap_index.xml
Sitemap: https://您的域名.com/post-sitemap.xml
Sitemap: https://您的域名.com/page-sitemap.xml

正确配置robots.txt可以帮助搜索引擎更高效地抓取您的WordPress博客内容,同时保护隐私和敏感区域不被索引。