06.11 2010

Что такое robots

Автор: admin | Категории: С других источников


Что такое robots

Что такое robots. txt? Зачем нужен robots. txt? Правила для robots. txt? Примеры корректного robots. txt И пришел паук… И как вы думаете что в первую очередь он будет искать у вас на сайте? Если паук (робот, поисковый бот) правильный, и его прислала авторитетная поисковая система, то робот, посетивший вас, попытается найти для себя «распоряжения», которые вы для него предусмотрительно оставили. А если не оставляли то очень плохо. Распоряжения вы должны были внести в текстовый документ с именем robots. txt. Если этот документ отсутствует вот по такому адресу http://vashsait. ru/robots. txt то бот начнет совать свой нос, куда не следует. Насобирает лишнего и отправится восвояси, а нам это вовсе не к чему поэтому давайте разбираться с тем, что нужно вписать в этот документ и как правильно это сделать.

Зачем нужен robots. txt

Нам уже в принципе ясно. Кстати не вздумайте назвать его к примеру Robots. txt, robot. txt, или что то в этом духе, это будет грубейшей ошибкой. Все знаки в имени файла должны быть на латинице, и непременно в нижнем регистре, имя этого файла должно быть таким: robots. txt и ни как иначе. Этот файл создается только с одной целью, управление действиями робота на вашем сайте, ну конечно гопака вы бота танцевать не заставите, а вот запретить посещать служебные разделы, или запретить индексировать какие-то страницы на сайте вы можете.

Что писать в robots. txt

Первая строка (поле) не что иное как имя робота, к примеру, робот Яндекса:

User-agent: Yandex

Последующие поля это инструкции или комментарии для ботов, в одном документе можно прописать инструкции сразу для нескольких роботов, по очереди, или же обратиться ко всем роботам сразу, если написать вот такую строку:

User-agent: *

Это будет значить что нижеследующие инструкции будут верны для всех ботов посещающих ваш сайт. В следующем поле пишется директива (инструкция) для роботов – Disallow, такая директива запрещает паукам индексировать какой либо файл или каталог, например, так:

User-agent: Yandex
Disallow: vasya. htm

Данная запись означает, что боту Яндекса не следует индексировать файл vasya. htm. Если вы хотите запретить к индексации, допустим служебный каталог admin, со всеми находящимися в нем подкаталогами и файлами, то запись будет такой:

User-agent: Yandex
Disallow: /admin

Если вы вписали директиву Disallow, а после двоеточия ни чего не написали, то это значит, что сайт полностью открыт к индексации:

User-agent: Yandex
Disallow:

Следующий документ разрешает индексировать весь сайт, и всем роботам:

User-agent: *
Disallow:

Нужно сказать, что последний пример лучше не использовать, так как это будет то же самое, как если бы у вас совсем не было robots. txt, страшного конечно в этом ни чего нет, скорее это считается «правилом плохого тона». Для Google можно еще писать регулярные выражения, начинающиеся со знака * (звездочка заменяет в выражении имя файла или же любую последовательность символов), и завершает выражение знак $, который скажет роботу о том что строка завершена. В следующем примере роботу Google запрещено индексировать все файлы, находящиеся на сайте, с расширением gif и rar

User-agent: googlebot
Disallow: * .gif$
Disallow: * .rar$

Как вы уже видите запретить роботам индексировать какие-то каталоги вашего сайта или файлы не так уж сложно, принцип тут простой все, что мы явно указываем, запрещается к индексации, а все остальное можно индексировать. Но директива Disallow не единственная, есть еще директива Host.

Зачем нужна директива Host?

Эта запись директива действует для Яндекса. Вот такая запись:

User-agent: Yandex
Disallow: /admin
Host: http://www. vashsait. ru

Скажет роботу Яндекса, что сайт http://www. vashsait. ru является основным зеркалом. Зеркало, это, как правило, частичная или полная копия какого то сайта. Копии сайтов делаются, как правило, если вы владелец большого и посещаемого ресурса, и вам нужно снять нагрузку с сайта и повысить его надежность и работоспособность. Этой записью мы сообщаем Яндексу, что нужно индексировать основной сайт, а его дубли являются неосновными зеркалами (копиями) и они не будут проиндексированы. Если вы имеете зеркала то вам обязательно нужно прописывать директиву Host, иначе Яндекс выберет зеркало на свое усмотрение, и будет проиндексировано не то зеркало что вам нужно. Составляя robots. txt будьте предельно внимательны и перепроверьте свою работу, лишний раз, так как одна ошибка и о вашем сайте будут знать только ваши друзья. Оптимизация 0 коммент. Метки:   Disallow, Host, robots. txt, директива

Понравилась статья? Получай обновления и будь всегда в курсе событий!
Подпишись на RSS или
blog comments powered by Disqus