понедельник, 8 декабря 2008 г.
Как избежать дублирования контента на Blogger?
автор Дмитрий Наумов 62 comments Tag Все о Blogger Пост, который я обещал, и считаю с ним обязательно нужно ознакомиться всем пользователям Blogger! Постоянные читатели, наверное, помнят, что одно время у меня начались проблемы с Google. До этого происшествия, все шло хорошо – Гугл любил меня, за это я любил Гугл, и до судного дня давал мне трафика в 4 раза больше чем Яндекс (это не связано с тем, что Гугл популярнее, просто Яндекс очень настороженно относится к blogspot, поэтому медленно запрягает, но зато потом нормально едет -). И тут в один день все закончилось. Google не выкинул меня из индекса, но, по всем запросам я мгновенно опустился так низко, что можно полдня капать, прежде чем докопаться до моего с треском изгнанного из серпа блога. Конечно, версий было много – в принципе можно взять пост «9 факторов наиболее негативно влияющих на ранжирование в Google» и добавить еще столько же. Теоретически в любом из грехов при желании можно обвинить абсолютно любого, даже девственно чистого блоггера. Но почему же я решил, что моя проблема в дублированном контенте?
Во-первых, в первый же день я устранил 99% теоретически возможный внутренних причин, но спустя 1,5 месяца результата не было. До пессимизации я получал с Google 30-60 переходов в сутки, за полтора месяца в течение которых блог находился под фильтром – 10-15 за весь период! После того как я решил проблему с дублированием, уже на следующий день позиции начали восстанавливаться. Почему спросите вы я сразу не начал решать проблему с дублированным контентом? Во-первых, я не думал, что ребята из команды Blogger на столько глупы, чтобы создавать сервис, который может нелепо попасть под нож своей же поисковой системы.
Во-вторых, я уже давно привык, что новые посты индексируются в миг, и очень давно не заглядывал, в то, что индексирует Google. А когда заглянул – офигел. Офигел сразу после того как увидел количество страниц в индексе – их было раза в 3 больше чем должно было быть. Стал смотреть и обнаружил, что помимо собственно постов, проиндексирован «архив» и «рубрики». Мне не понятно, что мешало разработчикам blogspot закрыть их от индексации, но если вы ставите эти виджеты себе на главную, рано или поздно ждите сюрприза, и чем больше накапливается контента, тем больше страниц в supplemental индексе и тем большим хламом считает ваш блог Google. Если у тебя перед глазами список проиндексированных страниц, и ты видишь задницу, сложно отрицать что это проблема, причем для Google это чуть ли не самое страшное прегрешение, а на расправу он быстр – проверено на себе! Поэтому вопрос нужно было решать. В обычных случаях проблема решается достаточно просто – нужные страницы или разделы запрещаются в robot. txt, но, у пользователей Blogspot такой возможности нет. Несмотря на то, что файл robot. txt существует для каждого блога, и его даже можно посмотреть, ничего кроме это с ним не сделаешь… Можно просто убрать архив и рубрики, но это не выход, потому, что я считаю их весьма полезными и нужными для читателя, поэтому для меня это не вариант. Нужен был другой и их нашлось даже несколько, в итоге я остановился на предлагаемом здесь. Сделать это можно с помощью очень простого мета-тэга. Наша задача запретить индексацию «архива», при этом главное не напортачить и не запретить индексацию главной и каждой страницы в отдельности. 1) Как обычно заходим «Макет – Изменить HTML», создаем buckup. 2) Находим наверху тэг и вставляем после него следующий код:
3) Сохраняем шаблон. Как проверить что все сделано верно и операция прошла успешно? Щелкайте на любой месяц архива, после того как страница загрузится, нажмите CTRL-U чтобы посмотреть код, вверху страницы должен присутствовать следующий код: Посмотрите таким же образом главную страницу, и страницу какого-нибудь поста. Этого кода ТАМ БЫТЬ НЕ ДОЛЖНО! Только на страницах архива и рубрик! Несколько слов о рубриках – это еще одна причина почему я сразу не обратил внимание на дублирование контента. Дело в том, что они по умолчанию не индексируется, по крайней мере, я знаю точно что на прежних шаблонах индексация у меня была запрещена. Поэтому, каждому сообщению можно присваивать несколько ярлыков, потому что страницы разделов получаются динамические, а не статические. Такой порядок вещей – норма для любого «не кретинского шаблона». Но, как это бывает – «не все йогурты одинаково полезны», и при смене шаблона такие проблемы возможны. Если такая штука произошла у меня, то она возможна и у кого-то еще. К счастью, применение выше указанного рецепта, вылечило и это, несмотря на то, что явным образом рубрики в коде не фигурируют. Итогом манипуляций было следующее – через день несколько запросов появились на привычных местах в выдаче, через 2 дня вернулись почти все. С ними само собой вернулся и трафик. Кроме того из индекса выпали все страницы архива и рубрик, а supplemental индекс, стал стремительно приближаться от показателей сайтов изгоев к трасту. Скажите совпадение и дело совсем не в дублированном контенте? Очень вряд-ли -). Подписаться на RSS. Еще читать: Азбука терминов и жаргонизмов для SEO новичка Зарабатываем с J2J. Инструкция для новичков. Как вы планируете бюджет на раскрутку блога? Подведение итогов голосования. Подпишитесь на RSS чтобы получать самые свежие публикации в свой ридер.
Это удобно! Еще по теме : Все о Blogger на 21:34 Comments 62 comments To-do girl комментирует… Эммм, нифига себе, какой контент на картинке… %) 8 декабря 2008 г. 23:46 Дмитрий Наумов комментирует… Ну да, что-то я загнул -). 9 декабря 2008 г. 0:41 Maljar комментирует… Спасибо за совет! Хоть контента еще мало, но на будущее подстраховаться не помешает. 9 декабря 2008 г. 1:23 kvasyok комментирует… Спасибо, Дима))) манипуляции провёл, буду смотреть на результат) Спасибо, дружище! 9 декабря 2008 г. 10:56 Делитант комментирует… Сейчас проверю, рекомендации, а то Google что-то не очень мой блог уважает. P. S. Картинка пугающая 9 декабря 2008 г. 11:36 AlexNote комментирует… Для блогов на этой платформе очень полезный мануал. У нас-то есть доступ к роботсу, а вам приходится кустарными методами защищатся от недоработок разработчиков сервиса. 9 декабря 2008 г. 14:14 Donca Latilu комментирует… Спасибо за совет, друже) 9 декабря 2008 г. 14:52 hoster_13 комментирует… Спасибо за предупреждение! А то я смотрю: чего это у меня проиндексировано страниц почти в 2 раза больше, чем есть постов:) Предупреждён – значит вооружён! 9 декабря 2008 г. 15:39 Геннадий комментирует… Вот так живешь и не знаешь, с какой стороны засада. По-моему, очень дельный совет. Спасибо! 10 декабря 2008 г. 10:40 Michael de`Oz комментирует… Спасибо. Сделал, посмотрим на результат 17 декабря 2008 г. 17:41 bottle комментирует… Спасибо. Воспользовалась после того, как заметила, что site-auditor начал показывать плохие цифры относительно гугла. Хоть на поисковый рейтинг это пока не повлияло, но я решила не откладывать. 22 декабря 2008 г. 23:50 Дмитрий Наумов комментирует… Я вот тоже дождался, потом разгребал, сейчас полный порядок. Так что правильно сделали что воспользовались рецептом, главное проверить все ли сделано верно, а то можно по ошибке на запрещать что не нужно (как проверить, есть в посте). 23 декабря 2008 г. 1:21 Allpa комментирует… >> чего это у меня проиндексировано страниц почти в 2 раза больше, чем есть постов А как можно посмотреть, сколько чего проиндексировано? Ваще в этом не разбираюсь… 13 января 2009 г. 4:50 Дмитрий Наумов комментирует… Я пользуюсь утилитой Site-auditor, о ней написано вот здесь http://maxibiz. blogspot. com/2008/08/blog-post_30.html или плагином для firefox SeoQuake, еще есть куча онлайн сервисов, например – http://maxibiz. blogspot. com/2008/09/seo_30.html 13 января 2009 г. 11:15 Дмитрий Наумов комментирует… А если без всяких инструментов, это можно сделать в поиске соответствующей поисковой системы. 13 января 2009 г. 11:16 Allpa комментирует… Проделала. Появился код вверху страницы архива. Если смотреть главную, то эта строчка находится в длинном ряду массовых сведений ВНИЗУ страницы – в разделе SCRIPT TYPE=”text/javascript”, который выглядит примерно так (вообще там куча подобного текста): data:page. isPrivate\47\76\n\74meta content\75\47NOINDEX, NOFOLLOW\47 name\75\47robots\47/\76\n\74/b:if\076′}});_WidgetManager._RegisterWidget(‘_LinkListView’ Точно такая же фигня и на странице исходного кода в отдельном сообщени. Это что-то значит? Или всё нормуль, так и должно быть? 13 января 2009 г. 17:40 Allpa комментирует… >> например – http://maxibiz. blogspot. com/2008/09/seo_30.html От здорово! Спасибо огромное. А нет ли у тебя почитать про ключевые слова (нет, я понимаю кагбе их важность) – как и куда их добавлять в блог? Просто насовывать в новости? Слуш… я тебя достала уже, кажется… прости… 13 января 2009 г. 17:57 Дмитрий Наумов комментирует… То Allpa: Что-то не так, пока не понял. Такого быть не должно, да и на сайте у Вас сейчас исходный код посмотрел нужных тегов в нужных местах нет. Лучше внимательно все повторить, заново. Про ключевые слова у меня что-то было, смотрите раздел “Продвижение в сети” и “Новичку”. На счет “достали” не беда, единственное не всегда могу отвечать оперативно и полно. 13 января 2009 г. 23:24 Allpa комментирует… >> на сайте у Вас сейчас исходный код посмотрел нужных тегов в нужных местах нет Как же нет, когда есть! Посмотри, плз, на скрин → http://img. skitch. com/20090113-fm7c12exfj2y8dbc5r7y2asjkd. jpg Красным я обвела строчку, указывающую, что мы сейчас смотрим код именно январского архива (другого-то у меня и нет пока), а зелёным – тот код, о котором ты говорил в посте: Разве нет? 14 января 2009 г. 0:03 Allpa комментирует… И разве мы не договорились на “ты”?.. Или я опять всё перепутала… 14 января 2009 г. 0:04 Дмитрий Наумов комментирует… Да все правильно теперь все нормально, на главной и страницах постов запрещающего тега нет, значит все правильно. На счет “ты”, договаривались, но я имел в виду что меня стоит на “ты”, потому что я по сути 27-и летний мальчишка -). Ну, на ты так на ты -). 14 января 2009 г. 0:34 DiVolk комментирует… Здесь видел еще один вариант: homelessinbelarus. com/2008/01/serpa. html(но код почему-то в комменты “не может быть принят”) Интересно,