28.09 2008

Здравствуйте, мои дорогие читатели

Автор: admin | Категории: Статьи


Здравствуйте, мои дорогие читатели

Здравствуйте, мои дорогие читатели. Последнее время все чаще у меня спрашивают про инструменты для вебмастеров Google и Яндекс, а именно про файл robots. txt, про запрещенные к индексации страницы или заблокированные страницы в файле robots. txt. Странно получается, сначала мы ищем информацию о том, как оптимизировать blogger, выполняем все рекомендации, а потом только начинаем задавать вопросы, почему у меня заблокированы страницы и как их разблокировать. Поэтому я и решила рассмотреть оптимизацию блогов Blogger/Blogspot с точки зрения файла robots. txt. Начну по порядку, с того, что вообще такое файл robots. txt. Файл robots. txt – по сути это обычный текстовый файл, который находится в корневой папке сайтов.

http://site. ru/robots. txt

Файл обычный, а вот содержание этого файла очень важное.

Здравствуйте, мои дорогие читатели

Файл robots. txt был задуман для того, чтобы управлять индексацией сайта. Указывать поисковому роботу, что можно индексировать, а что нельзя. Естественно, возникает вопрос, а зачем вообще что-то запрещать, пусть робот индексирует все. Первая и самая очевидная ситуация. С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией, с которой сами пользователи не захотели бы делиться. Так же, к этой ситуации можно отнести и такие, когда на сайте есть разделы доступные для всех пользователей, и разделы, доступные только для зарегистрированных пользователей. Думаю, с этим понятно. И такое содержание специально запрещается к индексации. Но есть и другая ситуация, которую мы рассмотрим более подробно. Все современные сайты являются динамическими.

Здравствуйте, мои дорогие читатели

Многие пользователи наивно полагают, что динамический сайт, это тот, на котором бегающие строчки, картинки сами сменяют друг друга и т. п. и то, что называют флеш-сайт. На самом деле, динамический сайт к этому не имеет никакого отношения. И слово динамика возникла совсем по другой причине. Я не являюсь профессионалом, поэтому могу где-то употребить не совсем точные формулировки, но надеюсь, мне удастся передать вам суть. Представьте себе интернет-магазин. На сайте есть форма поиска товара по разным критериям. На один и тот же товар можно попасть употребив разные фильтры.

Например, фильтр по производителям может привести к товару, который так же можно выбрать, применив фильтр по цене и габаритам. Использование различных фильтров создает в URL страницы разный путь до товара. И один и тот же товар может находиться на 2-3-4-х разных URL. Вот тут начинается путаница, а какая из всех этих страниц является правильной и самой важной? Какую страницу показывать в результатах поиска? Вот тут и приходит на выручку такой файл, как robots. txt. В котором указано, что все URL, которые возникли в результате применения фильтров, индексировать нельзя. Отличительной особенностью всех URL, которые сформировались в процессе выбора товаров, является присутствие специальных символов или слов. Вернемся к нашим блогам. Я предлагаю вам разобрать один частный случай. Этот случай не частый, но и не редкий, особенно, на начальном этапе ведения блогов, когда мы ещё не все понимаем. Прошу отнестись к этому случаю, как к виртуальному примеру, т. е. совершенно не обязательно, что такое может быть у вас, но при этом отнестись со всей серьезностью, потому что такие случаи все же не редкость. Условие Вы показываете полный текст статьи на главной, не пряча часть статьи под кат. Этой статье вы присвоили ярлык, по которому у вас ещё нет других статей, кроме этой. Зайдем на нашу воображаемую статью, она имеет адрес

http://мой_блог/дата/моя_статья

Помните, вы присвоили этой статье ярлык, которого ещё нет ни у одной статьи. Вы только что решили придумать писать на эту тему, и других статей на эту тему у вас нет. Зайдем на страницу этого ярлыка. Он имеет URL

http://мой_блог/search/label/название_ярлыка

И что мы видим. На этой странице наша статья, в полном варианте, т. к. мы не прячем ее под кат, и других статей у нас вообще нет. В итоге получается, одна и та же статья присутствует сразу по двум разным адресам. Какая из этих двух страниц является правильной? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми. Вот к такому содержанию поисковые роботы относятся очень негативно. И даже, когда мы начинаем прятать статьи под кат, и даже, когда у нас по ярлыку находится несколько статей, поисковой системе не нравится, что у нас вообще складываются такие страницы. Такая ситуация носит название – дублирование контента. Поэтому, чтобы поисковые системы не ругались, чтобы лучше ранжировали наш блог, в файле robots. txt стоит запись:

User-agent: * Disallow: /search

Которая означает, что любые роботы всех поисковых систем не должны индексировать страницы, которые имеют в себе директиву /search. Это сделано для нашего блага разработчиками платформы. И обнаружив в инструментах предупреждение, что какие-то страницы заблокированы (запрещены) файлом robots. txt, не нужно впадать в панику и переживать, что на вашем сайте что-то не индексируется.

Здравствуйте, мои дорогие читатели

Похожая ситуация складывается и с архивами. Например, у вас на главной странице блога отображается 10 статей. Адрес главной страницы

http://мой_блог

И так получается, что все эти 10 статей написаны в ноябре. Многие используют виджет Архив.

Выберем в архиве Ноябрь, мы увидим все те же 10 статей, которые сейчас находятся на главной странице блога, но в адресной строке браузера мы видим совершенно другой URL

http://мой_блог/2010_11_01_archive. html

Одно и тоже содержание по разным адресам. Вот такие страницы архива мы намеренно запрещаем к индексации через мета-теги. Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельным статьям, а когда можно листать главную страницу. В результате листания главной страницы образуются адреса вида

http://мой_блог/search? updated-max=2010-06-17T16%3A17%3A00%2B03%3A00&max-results=7

Казалось бы, в URL этой страницы содержится директива /search, но я обратила внимание, что Google постоянно индексирует эти страницы. Именно поэтому у меня нет листинга по страницам.

Здравствуйте, мои дорогие читатели

Я его просто удалила, чтобы не складывалось таких страниц. При этом все, которые попадаются в поиске, я удаляю вручную в инструментах веб-мастера на вкладке Конфигурация сайта – Доступ для сканера – Удалить URL. Часто в индекс Google (в Яндекс я с таким не сталкивалась) попадают и страницы Ярлыков, которые запрещены файлом robots. txt. Все такие URL я так же удаляю в инструментах вебмастера Google. Основная проблема блогов Blogger/blogspot заключается в том, что у нас нет доступа к файлу robots. txt, который мы могли бы изменить самостоятельно так, как хотим. У нас вообще нет другого очень важного файла sitemap. xml в котором мы могли бы указать важные страницы своего блога. Это проблема всех бесплатных блоговых платформ. И тут ничего невозможно с этим поделать. Мы можем только смириться и периодически проверять индексацию, удаляя страницы, случайно попавшие в индекс поисковой системы. Ну и конечно писать интересный и оптимизированный контент.

Понравилась статья? Получай обновления и будь всегда в курсе событий!
Подпишись на RSS или
blog comments powered by Disqus