Создаем robots.txt для wordpress
Приветствую всех читателей Блога Ярика. Сегодня мы разберем одну очень важную вещь, которая понадобиться для вашего блога или сайта на WordPress. Мы с вами поговорим о файле robots, так как у меня на данный момент нет настроенного robots.txt, то по ходу статьи я расскажу вам о важности данного файла и создам себе файл robots.txt для wordpress.
Итак, начнем. Файл robots.txt необходим для вашего блога wordpress, ведь в нем вы можете задать параметры индексации для ботов поисковых систем Яндекс и Google. В нем можно задать специальные параметры при помощи которых мы дадим понять ботам, что нужно индексировать, а что нет.
Это очень важно, ведь порой в индекс поисковых систем попадает много ненужного хлама и системных страниц WordPress, которые не несут полезной информации для пользователей и не очень привлекательно выглядят в сниппетах, к примеру:
- Записи меток(теги)
- Страницы категорий
- Страницы с навигацией
- Дубли страниц
Итак, приступим к созданию robots.txt для worpdress блога, в данном случае, я буду обновлять свой роботс, так как он у меня совсем пустой , поэтому, в индексе полно ненужного хлама.
Для создания нашего с вами правильного robots файла, нам понадобиться совершенно любой текстовый редактор, даже простенький блокнот, создаем файл с разрешением .txt и названием robots, сохраняем его и приступаем к его заполнению и настройке.
Наш с вами файл robots открыт, я создал его в простом редакторе AkelPad, и мы преступаем, к поисковым ботам мы будем обращаться через строку User-agent, Яндекс в этом плане немного привередлив, поэтому к нему мы будем обращаться лично, добавив в robots.txt строку “User-agent” с параметром Yandex. Если же мы хотим обратиться к ботам всех поисковых систем, то вместо параметра Yandex, прописываем звездочку(*). СтрокаUser-agent должна быть выше остальных, так как поисковые боты считывают код сверху вниз. Копируйте и вставляйте данную строку в свой файл robots.
1 | User-agent:Yandex |
Итак, теперь нужно разобраться с вопросом: а что же нужно закрыть от глаз поисковых ботов? Я думаю, ответ прост, но если вы еще не догадались, то приведу простой пример – административная зона, она уж точно должна быть закрыта от “чужих” глаз, а также другие системные папки с файлами. Для закрытия некоторых каталогов нашего сайта от индексации мы воспользуемся директивой – “Disallow”. При помощи данной директивы мы можем закрыть от индексации, как отдельные части блога, так и блог в целом.
Мы, конечно же, закроем лишь некоторые части, нежелательные для попадания в индекс поисковых систем. Не будем ходить вокруг да около, просто берите данный код и вставляйте его в свой файл, данный код содержит запреты для индексации системных папок движка wordpress и прочей не нужной в индексе нам информации. В общем, копируйте и вставляйте себе данный код:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | Disallow:/cgi-bin Disallow:/wp-admin Disallow:/wp-includes Disallow:/wp-content/plugins Disallow:/wp-content/cache Disallow:/wp-content/themes Disallow:/wp-trackback Disallow:/wp-login.php Disallow:/wp-register.php Disallow:/wp-feed Disallow:/wp-comments Disallow:/feed Disallow:*/feed Disallow:*/trackback Disallow:*/comments |
Это основной код, который должен быть обязательно в вашем robots.txt для wordpress блога, если же вы хотите убрать из индексации какие-либо страницы, пользуйтесь директивой Disallow. В указанном выше коде от индексации не спрятаны теги, пагинация и категории, хотя их, по-хорошему, желательно все же спрятать от поисковых систем, в частности, от Яндекса. Если вам это нужно, то пропишите дополнительно еще несколько строк в файл robots:
1 2 3 | Disallow:/category Disallow:/tag Disallow:*/page |
Но и на этом еще не все, как вы знаете, CMS WordPress имеет множество шаблонов и некоторые из них, отличаются друг от друга, поэтому, вам может потребоваться спрятать от индексации еще некоторые страницы или каталоги, в моем случае, это каталог /author. В моем шаблоне у каждого автора блога может быть страница с записями, я естественно не хочу, что бы данная страница индексировалась, она, по сути, не несет в себе никакой полезной информации, поэтому, я закрываю данный каталог от индексации, добавив строку:
1 | Disallow:/author |
Далее, последний штрих, указываем директивы “Host” и “Sitemap”, в директиве Host мы прописываем основное зеркало нашего блога, а в директиве Sitemap мы указываем ссылку на карту сайта в формате XML. У меня это дело выглядит данным образом:
1 2 | Host:http://jarikblog.ru Sitemap:http://jarikblog.ru/sitemap.xml |
В итоге, у меня получился файл robots.txt c таким кодом:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 | User-agent:Yandex Disallow:/cgi-bin Disallow:/wp-admin Disallow:/wp-includes Disallow:/wp-content/plugins Disallow:/wp-content/cache Disallow:/wp-content/themes Disallow:/wp-trackback Disallow:/wp-login.php Disallow:/wp-register.php Disallow:/wp-feed Disallow:/wp-comments Disallow:/feed Disallow:*/feed Disallow:*/trackback Disallow:*/comments Disallow:/tag Disallow:/author Disallow:*/page User-agent:* Disallow:/cgi-bin Disallow:/wp-admin Disallow:/wp-includes Disallow:/wp-content/plugins Disallow:/wp-content/cache Disallow:/wp-content/themes Disallow:/wp-trackback Disallow:/wp-login.php Disallow:/wp-register.php Disallow:/wp-feed Disallow:/wp-comments Disallow:/feed Disallow:*/feed Disallow:*/trackback Disallow:*/comments Disallow:/tag Disallow:/author Disallow:*/page Host:http://jarikblog.ru Sitemap:http://jarikblog.ru/sitemap.xml |
Вы же, можете открыть или закрыть индексацию ненужных вам каталогов и страниц вашего блога, я же решил не закрывать от индексации некоторые каталоги, а именно, я не закрыл от индексации категории сайта. Надеюсь, что статья была Вам хоть немного полезна, оставляйте ваши комментарии, буду очень рад.