Как писать файл robots.txt

суббота, 31 марта 2012 г.

Как писать файл robots.txt

Файл robots.txt автоматически создается для каждого блога. Увидеть его можно по адресу http://адрес_блога/robots.txt.

В этом файле, предназначенном для облегчения работы поисковых систем, находится список страниц, которые поисковику индексировать не надо. По умолчанию же стоит разрешение на сканирование всех страниц блога. Из-за этого, как я уже писала в посте о дублировании страниц, возникают повторы - страницы с одинаковым содержанием, но с разными адресами: из архива, из списка ярлыков, популярных сообщений и проч.
Также в нем можно запретить сканировать и страницу блога с содержанием, которое является внутренним и не должно попасть в поисковик.

Чтобы это сделать, надо поправить файл robots.txt.
Доступ к нему возможен из панели управления на Блоггере: "Настройки" - "Настройки поиска" - "Поисковые роботы и индексация" - "Пользовательский файл robots.txt".

Вот как выглядит этот файл по-умолчанию:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.

На сайте "Шпаргалка блогера" http://shpargalkablog.ru/2010/07/kontent.html советуют закрыть блог для сканирования, а отдельно выписать страницы, сканировать которые нужно:

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: / (не разрешает сканировать блог)

Allow: /*.html$ # (разрешает сканировать статичные страницы)

Allow: /$ # (разрешает сканировать Главную страницу)

Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (карта сайта берется из RSS)

Другой вариант (взято из блога Seo Блогспот):
перечисляет все страницы, сканировать которые не нужно:

User-agent: Mediapartners-Google

Disallow: /search/

Disallow: /search/label/ (запрещает сканировать ярлыки)

Disallow: /*archive.html (запрещает сканировать архив)

Allow: /

Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated

User-agent: Yandex (почему-то прописано для Яндекса отдельно)

Disallow: /search/

Disallow: /search/label/

Disallow: /*archive.html

Allow: /

Надо заметить, что по некоторым данным, файл robots.txt является рекомендательным, но не строго обязательным для поисковика. И иногда страницы, запрещенные в нем, все же попадают в индексацию. Поэтому изредка надо просматривать список проиндексированных страниц, напр., в "Гугл. Инструменты для веб-мастеров" (об этом сервисе я писала раньше), и удалять там дублирующиеся страницы вручную.

Параллельно с файлом robots.txt в блоге можно использовать метатег robots, который нужно разместить в шаблоне блога (в самом начале перед head/) (совет от Aldous):

<b:if cond='data:blog.pageType == "item"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == "index"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == "static_page"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<meta content='noindex,follow' name='robots'/>
</b:if></b:if></b:if>

11 комментариев:

Maikl23 июня 2012 г. в 17:14
второй вариант позволяет сканировать яндексу все страницы?
ОтветитьУдалить
Ответы
Helen_Z13 августа 2013 г. в 22:25
Таня, а что означает: карта сайта берется из RSS?
ОтветитьУдалить
Ответы
Анонимный6 сентября 2013 г. в 10:59
скажите. я делаю страницы с сылками на ярлыки. пишу статью прописываю в ярлыке. и автоматически он у меня в нужной мне странице. Можно так делать??7
ОтветитьУдалить
Ответы
виктор2 июня 2014 г. в 05:16
Нивсштягк!!!)
ОтветитьУдалить
Ответы

Добавить комментарий

Чтобы оставить комментарий*, напишите текст в окошке и выберите в "Подписи комментария" профиль из любого вашего аккаунта. Если вы нигде не зарегистрированы, выбирайте Имя/URL и просто вводите свое имя - оно отобразится в подписи.

*Оставляя комментарий вы тем самым подтверждаете, что даете свое согласие на обработку своих персональный данных. См. Политика конфиденциальности

Примечание. Отправлять комментарии могут только участники этого блога.

БРБ - Блог ради блога

Страницы

суббота, 31 марта 2012 г.