Несколько месяцев назад Адам написал статью о дублированном контенте (русский перевод). Вот наиболее важные вещи из нее:
- Целью гугла является выдача уникальных результатов по запросам пользователей и поисковик выделяет огромные ресурсы для вычисления дубликатов. Вы можете не волноваться по поводу дубликатов - мы сами об этом позаботимся.
- Дублированный контент не ведет к какому либо наказанию для сайта, но если робот обнаруживает дубликат текста то в серпе выводится только один результат (чаще - оригинал) чтобы разнообразить результаты поиска.
- Дублированный контент также не может быть причиной попадания в саплиментал (supplemental index). Дубликаты могут косвенно влиять на это, если вы ссылаетесь несколько раз на разные версии текста, тем самым понижая pagerank каждой из копий.
На саммите мы хотели узнать какие именно технологии дублирования вызывают наиболее жаркие споры участников. Этими технологиями оказались копирование сайта, синдикация (RSS) и дубликаты внутри одного сайта. Мы обсудили возможные пути решения этих вопросов и некоторые решения предложенные участниками саммита будут рассмотрены наряду с нашими внутренними разработками. Я приведу некоторые из возможных решений для того что бы те кто не принимал участие в саммите могли принять участие в обсуждении.
Определение основного url в файле Sitemap
Один из вопросов которые мы обсуждали это указание предпочтительной ссылки на материал в файле sitemap, в качестве решения проблемы когда существует несколько версий одного и того же текста на сайте. Это поможет роботу включить в индекс только указанный вами материал не путая его с копиями.
Методика выявления параметров страницы которые не должны индексироваться роботом
Обсуждалась реализация этой технологии через инструменты для вэб-мастеров Google либо новые команды в robots.txt. Например если ссылка содержит сессионные переменные вэбмастер может указать переменную, которая поможет поисковым роботам индексировать “чистовую” версию урла и консолидировать ссылки на этот адрес. Участники саммита склонились к варианту указания через robots.txt
Способы определения авторства контента
Корректная работа данных методов позволяет поисковым системам определять на каком сайте находится оригинальная версия текста в отличие от синдицированной или скопированной. Заметьте что мы неплохо продвинулись в этом направлении судя по тому что этот вопрос обсуждался небольшой группой участников. Однако аудитория была заинтересована в том чтобы аутентификация текстов выступала в роли дополнительной защиты. Некоторые участники предлагали считать оригинальным текстом документ с наиболее ранней датой создания, но он не подходит из за легкости исправление даты документа со стороны нечестных вэб-мастеров. Кто-то даже предлагал регстрировать тексты перед их публикацией, но мы отклонили и этот метод , так как далеко не все авторы текстов будут знать о существовании такого сервиса или кто-нибудь может успеть раньше автора ( например если текст уже давно опубликован ). В настоящее время мы используем несколько факторов таких как авторитет сайта и количество ссылок на страницу с текстом. Если у вашего сайта есть rss-лента мы советуем попросить владельцев тех сайтов которые используют ваш контент заблокировать его от поисковых роботов через robots.txt. Сделайте это условием использования ваших статей.
Сервис с отчетами о дублированном контенте для владельцев сайтов
Большую поддержку у аудитории нашла идея создания сервиса который будет сообщать о дубликатах текстов на вашем и на других сайтах в сети. В добавок мы обсуждали систему оповещения вэбмастера о появившемся дубле. Оповещения могут приходить как по электронной почте так и через rss. Особенно полезным такое оповещение будет при обнаружении роботом ваших материалов на других сайтах.
Работа с популярными движками блогов и CMS для решения проблем с дубликатами
Некоторые дубликаты возникают из за того что программное обеспечение сайтов копирует один и тот же материал на несколько разных страниц. Например в блоге одна и та же статья может находится на главной странице, по постоянной ссылке (пермалинк), по категории и в архиве. Мы всегда готовы обсудить способы решения этих проблем с создателями подобного программного обеспечения.
Кроме обсуждения общих тенденций у аудитории возникло несколько частных вопросов:
Вопрос: Если я поставлю “nofollow” на все дубликаты контента на моем сайте, поможет ли это поднятся в выдаче поисковика ?
Количество nofollow ссылок на сайте никак не влияет на выдачу, однако это не лучший способ закрыть ваши дубликаты от индексации, к примеру на дублированные тексты могут вести ссылки с других сайтов. В данный момент лучшим способом будет закрытия страницы через robots.txt
Вопрос: Есть поисковые системы кроме Google поддерживающие альянс Sitemap ?
Мы запустили сервис sitemaps.org в ноябре прошлого года и постоянно с ним работаем. В апреле мы добавили возможно устанавливать адрес карты сайта в robots.txt. Мы продолжаем работать над тем что бы жизнь вэб-мастера стала проще.
Вопрос: Многие страницы на моем сайте содержат графики, причем на каждой странице графики разные, могу ли я быть уверен что поисковик не посчитает эти страницы дублями, ведь поисковики “не видят” картинки ?
Для того что бы оградить себя от проблем с дублями в этом случае включайте уникальный текст на каждую страницу ( например различные заголовки страниц, заглавия и мета-теги ) и не забывайте указывать alt’ы для каждой картинки. Например вместо использования alt=”график” , пишите alt=”график показывающий июньский тренд по доллару”.
Вопрос: Я экспортирую (RSS) контент многим сайтам-партнерам, и сейчас стал замечать что по некоторым ключевикам (из моих текстов) их сайты выше моего, что мне делать ?
В случае если вы свободно распостраняете тексты с вашего сайта, вам нужно будет расширить количество и качество контента на сайте что сделать его уникальным.
Вопрос: Как простому пользователю мне хочется видеть в результатах поиска и дубликаты материалов, можете ли вы добавить такую опцию ?
Наши исследования показали что большинству пользователей неинтересны дубликаты контента. Одна из участниц саммита в частности заявила что может и не захотеть информацию с одного и того же сайта, но в этом случае другие сайты будут содержать другую информацию и соответственно появятся в результатах поиска. Помните что вы можете добавить “&filter=0″ в строке параметров поиска (в урл) что бы просмотреть дополнительные страницы которые были отфильтрованы.

