Файл robots.txt автоматически создается для каждого блога.
Увидеть его можно по адресу http://адрес_блога/robots.txt.
В этом файле, предназначенном для облегчения работы поисковых систем, находится список страниц, которые поисковику индексировать не надо. По умолчанию же стоит разрешение на сканирование всех страниц блога. Из-за этого, как я уже писала в посте о дублировании страниц, возникают повторы - страницы с одинаковым содержанием, но с разными адресами: из архива, из списка ярлыков, популярных сообщений и проч.
Также в нем можно запретить сканировать и страницу блога с содержанием, которое является внутренним и не должно попасть в поисковик.
Чтобы это сделать, надо поправить файл robots.txt.
Доступ к нему возможен из панели управления на Блоггере: "Настройки" - "Настройки поиска" - "Поисковые роботы и индексация" - "Пользовательский файл robots.txt".
Вот как выглядит этот файл по-умолчанию:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.
На сайте "Шпаргалка блогера" http://shpargalkablog.ru/2010/07/kontent.html советуют закрыть блог для сканирования, а отдельно выписать страницы, сканировать которые нужно:
Другой вариант (взято из блога Seo Блогспот):
перечисляет все страницы, сканировать которые не нужно:
User-agent: Mediapartners-Google
Sitemap:
http://адрес_блога/feeds/posts/default?orderby=updated
User-agent: Yandex (почему-то прописано
для Яндекса
отдельно)
В этом файле, предназначенном для облегчения работы поисковых систем, находится список страниц, которые поисковику индексировать не надо. По умолчанию же стоит разрешение на сканирование всех страниц блога. Из-за этого, как я уже писала в посте о дублировании страниц, возникают повторы - страницы с одинаковым содержанием, но с разными адресами: из архива, из списка ярлыков, популярных сообщений и проч.
Также в нем можно запретить сканировать и страницу блога с содержанием, которое является внутренним и не должно попасть в поисковик.
Чтобы это сделать, надо поправить файл robots.txt.
Доступ к нему возможен из панели управления на Блоггере: "Настройки" - "Настройки поиска" - "Поисковые роботы и индексация" - "Пользовательский файл robots.txt".
Вот как выглядит этот файл по-умолчанию:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.
На сайте "Шпаргалка блогера" http://shpargalkablog.ru/2010/07/kontent.html советуют закрыть блог для сканирования, а отдельно выписать страницы, сканировать которые нужно:
User-agent:
Mediapartners-Google
Disallow:
User-agent: *
Disallow: / (не разрешает сканировать блог)
Allow: /*.html$ # (разрешает сканировать статичные страницы)
Allow: /$ # (разрешает сканировать Главную страницу)
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (карта сайта берется из RSS)
Другой вариант (взято из блога Seo Блогспот):
перечисляет все страницы, сканировать которые не нужно:
User-agent: Mediapartners-Google
Disallow:
/search/
Disallow: /search/label/ (запрещает сканировать ярлыки)
Disallow: /*archive.html
(запрещает сканировать архив)
Allow: /
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /
Надо заметить, что по некоторым данным, файл robots.txt является рекомендательным, но не строго обязательным для поисковика. И иногда страницы, запрещенные в нем, все же попадают в индексацию. Поэтому изредка надо просматривать список проиндексированных страниц, напр., в "Гугл. Инструменты для веб-мастеров" (об этом сервисе я писала раньше), и удалять там дублирующиеся страницы вручную.
Параллельно с файлом robots.txt в блоге можно использовать метатег robots, который нужно разместить в шаблоне блога (в самом начале перед head/) (совет от Aldous):
<b:if cond='data:blog.pageType == "item"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == "index"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == "static_page"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<meta content='noindex,follow' name='robots'/>
</b:if></b:if></b:if>
Параллельно с файлом robots.txt в блоге можно использовать метатег robots, который нужно разместить в шаблоне блога (в самом начале перед head/) (совет от Aldous):
<b:if cond='data:blog.pageType == "item"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == "index"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == "static_page"'>
<meta content='index,follow' name='robots'/>
<b:else/>
<meta content='noindex,follow' name='robots'/>
</b:if></b:if></b:if>
второй вариант позволяет сканировать яндексу все страницы?
ОтветитьУдалитьНет, в нем просто продублировано: для Гугла отдельно, для Яндекса - отдельно. Почему для Яндекса надо отдельно, я не поняла. И там и тут запрещено сканировать ярлыки и архив.
УдалитьЛично я у себя сделала первый вариант. Дубли все-равно иногда получаются - Гугл, видимо, иногда просто игнорирует robots. Но через некоторое время выпадают из индексации сами.
Таня, а что означает: карта сайта берется из RSS?
ОтветитьУдалитьВ Блоггере по умолчанию у каждого блога есть фид (RSS, новостийный канал). Я об этом писала тут: http://blogformyblog.blogspot.com/2012/05/rss-atom.html И для того, чтобы ориентироваться в блоге, поисковик берет его вместо карты сайта. Т.е. он пробегает по фиду, чтобы посетить все сообщения блога.
УдалитьГде взять свой фид и как им управлять, я писала здесь: http://blogformyblog.blogspot.com/2012/04/blog-post_181.html
Вообще-то рекомендуют сделать карту сайта прямо в блоге. Что-то вроде оглавления, в котором будут перечислены все посты. Но я пользоваться сторонними скриптами для ее организации не хочу, а встроенных удобных средств пока не нашла. Поэтому считаю, что пока лучше использовать то, что дано по умолчанию.
Спасибо за подробный ответ! буду разбираться! ))
Удалитьскажите. я делаю страницы с сылками на ярлыки. пишу статью прописываю в ярлыке. и автоматически он у меня в нужной мне странице. Можно так делать??7
ОтветитьУдалитьДа, все верно. Когда создаете страницу, выбираете не "пустая страница", а "веб-адрес". И вставляете адрес нужного ярлыка. ТОгда все сообщения с этим ярлыком (и уже написанные, и те, которые вы потом добавите), будут отображаться на этой странице.
УдалитьНе могу найти где это :"выбираете не "пустая страница", а "веб-адрес". У меня сразу создаётся сообщение и всё. А так хочется на статичных страницах размещать несколько постов, а не один!
УдалитьЭто можно настроить здесь: зайти в Дизайн, нажать под гаждетом "Страницы" кнопочку "Изменить" и выбрать в Отображаемых страницах "Добавить внешнюю ссылку" и вставить туда ссылку на ярлык.
УдалитьНивсштягк!!!)
ОтветитьУдалитьНивсштякс!!!
Удалить