25 июня 2009

Дублировать или нет…

Прочитал у Презренного манимейкера о дублированном контенте, даже коммент оставил, даже два. На самом деле очень интересная тема для размышлений. В общем по ссылке сможете сами почитать мнение Презренного на этот счет. Я  лишь хочу озвучить свое.

Давайте разберемся, где может встречаться дублированный контент на сайте. В блогах это могут быть рубрики, тэги или архивы; в магазинах категории товаров, всякие фильтры товаров иногда делают в виде ссылок, т.е. доступных для индексации страниц. Ну и так далее, примеров можно очень много накопать. А теперь разберемся что к чему.

Во первых, посмотрим на эту проблему со стороны посетителя ресурса. Пользователь рассматривает текст поста до тэга more, как полезную информацию. Он и не обратит внимание, что по ссылкам тэгов в мета поста данный текст тоже будет встречаться. Даже если он пробежится по пяти тэгам и встретит там один и тот же пост для него это будет логичным, как бы, а чего он там еще хотел увидеть.

А теперь, страшилки про бан от Яндекса за дублированный контент.

Подсчитаем возможное количество страниц на одном моем блоге, которому уже полтора года:

  1. 3186 тэгов
  2. 503 постов
  3. 17 месяцев
  4. 51 страница пейджнави на главной
  5. 51 страница пейджнави (сумма, в среднем по три на каждый месяц) (страницы в формате site.com?m=200905&paged=2)
  6. 11 рубрик
  7. 5 страниц пейджнави на каждую рубрику  (в среднем) в итоге опять 51 страница
  8. С тегами беда. Некоторые  в каждой второй записи, некоторые упоминались только один раз. Можно смело утверждать, что каждый тэг имеет свою страничку, т.е. это уже 3186 страниц. Прибавим 50%, т.к. половина тегов может иметь по две страничке, а то и больше. Все это грубо и очень усреднено, у меня нет сейчас желания лазить в мускул и колдовать с запросами. Таким образом по тэгам выходит  4779 страниц. Ого! Сам не ожидал такого количества.

Итак, что мы имеем. Пункт 2 не дублированный контент, пункт 4-5 дублированный контент. Сейчас у нас получилось 102 дублированных страничек. Далее пункт 7. Тут у нас не будет дубляжа, так как на каждой странице у нас разные посты и разные анонсы к ним (в блоге нет записей, одновременно принадлежащих к двум рубрикам). Дальше страшный пункт 8. Тут у нас получается каша из разного дублированного и не дублированного контента, причем могут быть странички различающиеся только одним заголовком - жесткий дубль, так будут странички полностью не дублированные - слабый дубль.

Как к этому сайту относится Яндекс? В индексе сейчас 2560 страниц. Причем в индексе 492 поста и остальное микс из тэгов, архивов и рубрик.

Как к этому сайт относится Google? В индексе сейчас 476 страниц. Причем в индексе  367  поста и остальное.

Могу сделать вывод (и не по одному этому сайту), что Яндекс кушает все подряд - тэги, рубрики, архивы и посты, а вот Google любит больше не дублированный контент.

P.S. Есть еще один сайтик, который анализировать нужна минимум неделя. На сайте сразу в глаза бросается огромное количество дублированных страничек. Однако в индексе Яндекса 20 000 страниц, а индексе гугла 6 580 страниц.

Поделиться ссылкой

Поделиться ссылкой в своем блоге. В поле ниже нужно ввести текст ссылки.

например: здесь, тут, %пост_титл%
Готовая ссылка: здесь




Комментарии? Да тут их целых 2!

# Уполовников Максим (link) 25 июня 2009 в 03:23 написал:

Оптимальный вариант - везде, кроме самой записи, показывать сокращённое содержимое записи (the_excerpt Reloaded). Ведь, когда мы избавляемся от дублей - вес (релевантность) отдельных страниц записей увеличивается, серфер попадает на страницу записи, а не на страницу архива, категории или тегов, где благодаря способу сортировки записей может уже и не быть интересующей записи.

Так что всё же не стоит распыляться, как бы это безобидно не выглядело.

# madbirdy (link) 25 июня 2009 в 09:29 написал:

@Уполовников Максим, Вы абсолютно правы! А можно еще использовать вывод архива без текста поста просто список заголовков.


Хотите поспорить или выразить свое мнение? Давайте! Форма ниже для Вас.