суббота, 31 марта 2012 г.

Как писать файл robots.txt

Файл  robots.txt автоматически создается для каждого блога. Увидеть его можно по адресу  http://адрес_блога/robots.txt.
файл robots.txt
В этом файле, предназначенном для облегчения работы поисковых систем, находится список страниц, которые поисковику индексировать не надо. По умолчанию же стоит разрешение на сканирование всех страниц блога. Из-за этого, как я уже писала в посте о дублировании страниц, возникают повторы - страницы с одинаковым содержанием, но с разными адресами: из архива, из списка ярлыков, популярных сообщений и проч.
Также в нем можно запретить сканировать и страницу блога с содержанием, которое является внутренним и не должно попасть в поисковик.

Чтобы это сделать, надо поправить файл  robots.txt.
Доступ к нему возможен из панели управления на Блоггере:  "Настройки" - "Настройки поиска" - "Поисковые роботы и индексация" -  "Пользовательский файл robots.txt".

Вот как выглядит этот файл по-умолчанию:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.

На сайте "Шпаргалка блогера" http://shpargalkablog.ru/2010/07/kontent.html советуют закрыть блог для сканирования, а отдельно выписать страницы, сканировать которые нужно:

User-agent: Mediapartners-Google
Disallow:
User-agent: * 
Disallow: /                (не разрешает сканировать блог)
Allow: /*.html$ #      (разрешает сканировать статичные страницы)
Allow: /$ #               (разрешает сканировать Главную страницу)
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated  (карта сайта берется из RSS)

Другой вариант (взято из блога Seo Блогспот):
перечисляет все страницы, сканировать которые не нужно:

User-agent: Mediapartners-Google
Disallow: /search/
 Disallow: /search/label/        (запрещает сканировать ярлыки)
 Disallow: /*archive.html       (запрещает сканировать архив)
 Allow: /
 Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated
 User-agent: Yandex       (почему-то прописано  для Яндекса отдельно)
 Disallow: /search/
 Disallow: /search/label/
 Disallow: /*archive.html
 Allow: /

Надо заметить, что по некоторым данным, файл  robots.txt является рекомендательным, но не строго обязательным для поисковика. И иногда страницы, запрещенные в нем, все же попадают в индексацию. Поэтому изредка надо просматривать список проиндексированных страниц, напр., в "Гугл. Инструменты для веб-мастеров" (об этом сервисе я писала раньше), и удалять там дублирующиеся страницы вручную.

Параллельно с файлом robots.txt в блоге можно использовать метатег robots, который нужно разместить в шаблоне блога (в самом начале перед head/) (совет от Aldous):

<b:if cond='data:blog.pageType == "item"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == "index"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == "static_page"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<meta content='noindex,follow' name='robots'/>
</b:if></b:if></b:if>

11 комментариев:

  1. второй вариант позволяет сканировать яндексу все страницы?

    ОтветитьУдалить
    Ответы
    1. Нет, в нем просто продублировано: для Гугла отдельно, для Яндекса - отдельно. Почему для Яндекса надо отдельно, я не поняла. И там и тут запрещено сканировать ярлыки и архив.
      Лично я у себя сделала первый вариант. Дубли все-равно иногда получаются - Гугл, видимо, иногда просто игнорирует robots. Но через некоторое время выпадают из индексации сами.

      Удалить
  2. Таня, а что означает: карта сайта берется из RSS?

    ОтветитьУдалить
    Ответы
    1. В Блоггере по умолчанию у каждого блога есть фид (RSS, новостийный канал). Я об этом писала тут: http://blogformyblog.blogspot.com/2012/05/rss-atom.html И для того, чтобы ориентироваться в блоге, поисковик берет его вместо карты сайта. Т.е. он пробегает по фиду, чтобы посетить все сообщения блога.
      Где взять свой фид и как им управлять, я писала здесь: http://blogformyblog.blogspot.com/2012/04/blog-post_181.html
      Вообще-то рекомендуют сделать карту сайта прямо в блоге. Что-то вроде оглавления, в котором будут перечислены все посты. Но я пользоваться сторонними скриптами для ее организации не хочу, а встроенных удобных средств пока не нашла. Поэтому считаю, что пока лучше использовать то, что дано по умолчанию.

      Удалить
    2. Спасибо за подробный ответ! буду разбираться! ))

      Удалить
  3. скажите. я делаю страницы с сылками на ярлыки. пишу статью прописываю в ярлыке. и автоматически он у меня в нужной мне странице. Можно так делать??7

    ОтветитьУдалить
    Ответы
    1. Да, все верно. Когда создаете страницу, выбираете не "пустая страница", а "веб-адрес". И вставляете адрес нужного ярлыка. ТОгда все сообщения с этим ярлыком (и уже написанные, и те, которые вы потом добавите), будут отображаться на этой странице.

      Удалить
    2. Не могу найти где это :"выбираете не "пустая страница", а "веб-адрес". У меня сразу создаётся сообщение и всё. А так хочется на статичных страницах размещать несколько постов, а не один!

      Удалить
    3. Это можно настроить здесь: зайти в Дизайн, нажать под гаждетом "Страницы" кнопочку "Изменить" и выбрать в Отображаемых страницах "Добавить внешнюю ссылку" и вставить туда ссылку на ярлык.

      Удалить

Чтобы оставить комментарий*, напишите текст в окошке и выберите в "Подписи комментария" профиль из любого вашего аккаунта. Если вы нигде не зарегистрированы, выбирайте Имя/URL и просто вводите свое имя - оно отобразится в подписи.

*Оставляя комментарий вы тем самым подтверждаете, что даете свое согласие на обработку своих персональный данных. См. Политика конфиденциальности

Примечание. Отправлять комментарии могут только участники этого блога.

Related Posts Plugin for WordPress, Blogger...