Чем опасны дубли страниц? Откуда берутся…
Чем опасны дубли страниц? Откуда берутся дубли страниц? Как найти продублированный контент в пределах одного домена (сайта) Дубликаты в пределах одного домена, это одна из широко распространенных ошибок, которую веб мастера допускают, по тем или иным причинам. На мой взгляд, ошибка грубейшая, приводящая к очень нежелательным последствиям. Хотя в некоторых случаях подобный хаос на сайте используется для различного рода манипуляций, которые, как правило, ни к чему хорошему не приводят. Если же вас подобные методы не интересуют, то тогда нужно провериться на наличие дубликатов и убрать ненужное самостоятельно, пока это не сделали сами поисковые системы, так как это может быть сделано не совсем, так как вам бы хотелось.
Чем опасны дубликаты страниц?
Попробую вам объяснить с точки зрения поисковых систем. Сайтов работающих на плохо настроенных движках или просто откровенно кривых, превеликое множество. Представьте какие ресурсы, расходуются на то что бы, ПС просто обойти все сайты, найти и притащить в базу новые страницы, а теперь к этому прибавьте проблему дублированного контента. Из-за дублей сайт может «разбухнуть» в несколько раз. А после того как робот обошел неблагополучный ресурс, и увидел кучу дублей, ему нужно от них избавлятся. После чего он снова пойдет на ваш сайт за новыми дублями страниц. Конечно, ПС не сидят, сложа руки, и стараются исправить подобное положение дел, и нужно сказать, что что-то у них получается в этом направлении, но надеяться на это будет опрометчиво. Машина не сможет, как человек оценить и исправить ситуацию, она это сделает по-своему. Поисковику нужно будет решить, не относятся ли ваши дублированные страницы, к каким либо манипуляциям, или это просто безалаберность, а может тривиальная неграмотность веб мастера, после этого ему необходимо выбрать нужные страницы, а ненужные дубли удалить. Сами-то как думаете, машина может все верно сделать без помощи человека? Посмотрим что у нас дальше получается. Допустим, робот обошел ваш сайт и что-то насобирал, потом все это попадает в выдачу, вместе со страницами, которые не должны были попасть в индекс, какие-то из этих страниц могут быть ранжированы выше оригиналов, и займут места ближе к топу. Через какое-то время за вашим сайтом наберется приличное число дубликатов, и поисковая машина подчистит свою базу вместе со страницами, что поближе к топу выдачи. После такой чистки вы можете далеко отлететь назад, или же вовсе выпасть из выдачи, и если вы заметили, что ваши поисковые запросы прыгают с ощутимым разбегом в позициях, да еще при этом количество проиндексированных страниц в целом больше чем есть в действительности это верный признак дублей в пределах одного сайта. Следующий неприятный момент, заключается в том, что новый контент опубликованный вами может очень долго оставаться не проиндексированным, так как робот будет занят обходом одних и тех же страниц. Позиции в поисковой выдаче будут непременно, скакать, а раз ваши ключевые запросы прыгают, значит, сайт недополучает своих посетителей.
Как появляются дубликаты страниц?
Дублированные страницы в интернет магазинах и каталогах.
Рассадником дублей можно назвать интернет магазины и различные каталоги. У магазинов не редко попадают в индекс, всевозможные страницы поиска и сортировки товаров. Когда одни и те же товары показываются в разной сортировке и на разных адресах. Как вы понимаете, вариантов сортировки может быть бесчисленное множество, и все эти варианты это и есть дубли. Подобные страницы точными копиями не назовешь, так как сортировка меняется, но по большому счету страницы повторяются, поэтому нужно смело закрывать от индексации подобные результаты поиска и сортировок. Так же распространенная ошибка, плохо оформленная карточка товара, если к каким-то товарам нет описаний или короткие описания, то поисковая система также может посчитать подобные страницы «неявными» дубликатами. Следующий момент это движки со сложной структурой навигации, на таких движках может вызывать проблемы относительная адресация, это когда одна и та же страница при переходе на нее из разных мест может иметь разные url.
Статьи в архивах
Если речь идет о блогах, то тут просто кладезь дублестроения, практически любая статья может быть в разных местах, и под разным соусом. Статья может находится в архиве, в версии для печати, в разделе и категориях, с комментариями и без них и т. д., все зависит от движка и его настроек.
Слеш в адресе страницы
Выявляется такая проблема очень легко, из урл любой страницы сайта убираете последний слеш, и жмете entr, если при перезагрузки в адресе вы так и остались, значит, проблема существует и нужно ее устранять. Как пример: http://www. lyuboi-sait. ru/ и htpp//www. lyuboi-sait. ru
Главные страницы или «индексные»
“Главные” тоже могут быть настроены не верно. Заглавная страница должна открываться только по одному адресу и ни как иначе. Если вы попадаете на главную страницу по нескольким адресам, и при этом сервер отдает статус 200 ok, это ошибка которую нужно устранять. Тут вам поможет 301 редирект который будет перекидывать на www. lyuboi-sait. ru. Подобное безобразие отслеживается простым перебором различных вариантов вашей домашней страницы( www. lyuboi-sait. ru /index. htm, www. lyuboi-site. ru/index. php, www. lyuboi-sait. ru /index. asp, www. lyuboi-sait. ru /default. asp, www. lyuboi-sait. ru /index. html, www. lyuboi-sait. ru /index. shtml и т. д. ).
Дублированные страницы на форумах
Владельцы форумов нередко используют идентификаторы сессий, они нужны для того чтобы отслеживать действия пользователя. Когда у пользователя в браузере отключены куки, то к адресу добавляется нечитаемая абракадабра, примерно такого вида: http://www. lyuboi-sait. ru/?path=seo/4352310619&sessionid=406787220 но дело в том что пауки куки не поддерживают, и получается, что каждый раз посещая одну и ту же страницу робот будет видеть разные варианты адреса. Сюда же можно отнести и статистику, которая тоже может подмочить репутацию вашего сайта.
Как найти дублированный контент в пределах одного домена (сайта)
Как это сделать я частично показал выше, в дополнение могу еще порекомендовать парочку известных программ, это: XENU и site-auditor. В рамках этого материала я не стану писать где взять, и как пользоваться, это скорее тема для отдельного поста. Ну и не забывайте использовать поисковые операторы. Оптимизация 0 коммент. Метки: дубликаты страниц, дублированный контент