Дублировать или нет…
Прочитал у Презренного манимейкера о дублированном контенте, даже коммент оставил, даже два. На самом деле очень интересная тема для размышлений. В общем по ссылке сможете сами почитать мнение Презренного на этот счет. Я лишь хочу озвучить свое.
Давайте разберемся, где может встречаться дублированный контент на сайте. В блогах это могут быть рубрики, тэги или архивы; в магазинах категории товаров, всякие фильтры товаров иногда делают в виде ссылок, т.е. доступных для индексации страниц. Ну и так далее, примеров можно очень много накопать. А теперь разберемся что к чему.
Во первых, посмотрим на эту проблему со стороны посетителя ресурса. Пользователь рассматривает текст поста до тэга more, как полезную информацию. Он и не обратит внимание, что по ссылкам тэгов в мета поста данный текст тоже будет встречаться. Даже если он пробежится по пяти тэгам и встретит там один и тот же пост для него это будет логичным, как бы, а чего он там еще хотел увидеть.
А теперь, страшилки про бан от Яндекса за дублированный контент.
Подсчитаем возможное количество страниц на одном моем блоге, которому уже полтора года:
- 3186 тэгов
- 503 постов
- 17 месяцев
- 51 страница пейджнави на главной
- 51 страница пейджнави (сумма, в среднем по три на каждый месяц) (страницы в формате site.com?m=200905&paged=2)
- 11 рубрик
- 5 страниц пейджнави на каждую рубрику (в среднем) в итоге опять 51 страница
- С тегами беда. Некоторые в каждой второй записи, некоторые упоминались только один раз. Можно смело утверждать, что каждый тэг имеет свою страничку, т.е. это уже 3186 страниц. Прибавим 50%, т.к. половина тегов может иметь по две страничке, а то и больше. Все это грубо и очень усреднено, у меня нет сейчас желания лазить в мускул и колдовать с запросами. Таким образом по тэгам выходит 4779 страниц. Ого! Сам не ожидал такого количества.
Итак, что мы имеем. Пункт 2 не дублированный контент, пункт 4-5 дублированный контент. Сейчас у нас получилось 102 дублированных страничек. Далее пункт 7. Тут у нас не будет дубляжа, так как на каждой странице у нас разные посты и разные анонсы к ним (в блоге нет записей, одновременно принадлежащих к двум рубрикам). Дальше страшный пункт 8. Тут у нас получается каша из разного дублированного и не дублированного контента, причем могут быть странички различающиеся только одним заголовком - жесткий дубль, так будут странички полностью не дублированные - слабый дубль.
Как к этому сайту относится Яндекс? В индексе сейчас 2560 страниц. Причем в индексе 492 поста и остальное микс из тэгов, архивов и рубрик.
Как к этому сайт относится Google? В индексе сейчас 476 страниц. Причем в индексе 367 поста и остальное.
Могу сделать вывод (и не по одному этому сайту), что Яндекс кушает все подряд - тэги, рубрики, архивы и посты, а вот Google любит больше не дублированный контент.
P.S. Есть еще один сайтик, который анализировать нужна минимум неделя. На сайте сразу в глаза бросается огромное количество дублированных страничек. Однако в индексе Яндекса 20 000 страниц, а индексе гугла 6 580 страниц.
Поделиться ссылкойКомментарии? Да тут их целых 2!
Оптимальный вариант - везде, кроме самой записи, показывать сокращённое содержимое записи (the_excerpt Reloaded). Ведь, когда мы избавляемся от дублей - вес (релевантность) отдельных страниц записей увеличивается, серфер попадает на страницу записи, а не на страницу архива, категории или тегов, где благодаря способу сортировки записей может уже и не быть интересующей записи.
Так что всё же не стоит распыляться, как бы это безобидно не выглядело.
@Уполовников Максим, Вы абсолютно правы! А можно еще использовать вывод архива без текста поста просто список заголовков.
Хотите поспорить или выразить свое мнение? Давайте! Форма ниже для Вас.



