]]>eTXT]]>

Сервис анализа и проверки траста xt сайтов в Яндексе

]]>Анализ сайта:]]> Проверка Траста

]]>]]>

Создание файла robots.txt

Наш сайт проиндексирован и казалось бы что еще нужно? Однажды обнаруживаешь, что проиндексировались абсолютно не нужные страницы, такие как вход и регистрация пользователя, лист стилей, формат pdf и мало ли что еще увидит поисковик... Вот тут и понимаешь важность файла робот.

Урок 12. Создание файла robots.txt

В этом уроке попробуем ответить на следующие вопросы:

  • Как правильно создать robots txt.
  • Для чего нужен файл робот - какие страницы закрывать от индексации поисковиками.
  • Пример файла robots txt для разных случаев.

Пойдем искать информацию во всемирной паутине.

Как создать файл робот.

  • Формат файла robots.txt - простой текстовый файл, создается в обычном блокноте.
  • Местонахождение файла робот - корневая директория сайта.
  • Пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта.
  • Большие robots.txt (более 256 Кб) считаются полностью разрешающими
  • Регистр написания имени файла - только нижний.
  • При копировании файла с помощью ftp-клиента, его нужно настроить на текстовый режим обмена файлами.

Что должно обязательно быть в файле robots.txt? Две директивы: «User-agent» и «Disallow».

Существуют еще и дополнительные записи для различных поисковых систем. Например, Яндекс для определения главного зеркала веб-сайта использует директиву «Host».

От 20 марта 2018 Блог Яндекса для вебмастеров оповестил о замене директивы хост на 301 редирект. Теперь паук не будет обращать внимание на прежнюю запись. Для того, чтобы главное зеркало не изменилось, нужно настроить постраничный редирект 301 со всех не главных  зеркал сайта.

Можно в роботсе не удалять запись, но она никакой роли играть не будет.

Источник новости и инструкции для вебмастеров: https://yandex.ru/blog/webmaster/301-y-redirekt-polnostyu-zamenil-direktivu-host


Напишем себе шпаргалку о записях в директивах.

Обязательная директива «User-agent»

Запись «User-agent» содержит в себе название поискового робота.

  • Если обращение происходит абсолютно ко всем поисковикам, то пишем символ звездочку «*», выглядит это так:

User-agent: *

  • Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так:

User-agent: Yandex

 

Обязательная директива «Disallow»

Директива «Disallow» укажет поисковому роботу, какие файлы, каталоги запрещается индексировать.

  • Если сайт открыт для индексирования весь, то нужно писать так:

Disallow:

или

Allow: /

 

  • Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой:

Disallow: /links.html

Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:

Disallow: /noybot/my.html

  • Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так:

Disallow: /cgi-bin/

Disallow: /forum/

Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.

Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.

  • Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow».

Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:

Disallow: /my

  • В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «*» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки).

Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:

Disallow: *.htm$

Еще пример запрета индексации файлов PDF для гугл

User-agent: Googlebot

Disallow: *.pdf$

Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:

User-agent: *

Disallow: /pdf/


Директива «Host»

Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.

Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host» понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.

Записывается следующим образом:

Host: www.site.ru

На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.

Например:

User-Agent: * # Все поисковый системы

Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки

Host: www.mainsite.ru # Главное зеркало

User-Agent: Googlebot # Личный блок для гугла

Disallow: /admin/ # Запрет директории гуглом

Пожалуй, минимум о создании robots txt составила. Это только фундамент знаний, еще много возможностей управлять индексацией своего сайта предоставляет файл робот.

Добавлю еще один пример файла роботс, где правила для бота яндекса прописываются в отдельной секции, а другая секция для всех роботов.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.master-live.ru

Все о роботе можно почитать по этой ссылке ]]>яндекса вебмастера]]>.


]]>Какие страницы сайта лучше закрывать от индексации поисковиками с помощью файла робот.

Для чего нужно закрывать страницы от индексации?

Очень просто, поисковый робот походит по сайту, проиндексирует все, что ему вздумается и уйдет. А вы потом с удивлением замечаете, что в выдачу попали страницы с технической информацией, а большая информативная статья не проиндексирована. Устал робот и не дошел до важной страницы вашего сайта.

Что ж можно закрыть от роботов, дабы они зря не тратили время на ненужные для выдачи страницы сайта?

Можно закрыть от индексации админ. раздел сайта, директории /images/ с графической информацией. Хотя учтите, что файл робот может прочитать любой желающий, а знаете что будет, если написать «не смотреть, здесь секрет»? Вот то-то... А поиск по картинкам в различных поисковых системах? Тоже посетителей привлекает.

Если вы владелец интернет-магазина, то можно закрыть служебные страницы с осуществлением покупки.

А чтобы не привлекать внимание к файлам, стандартные названия которых говорят о многом, можно создать специальную папку и хранить их в ней. А в файле robots.txt запретить индексацию только этой папки.


Примеры файла robots txt.

# - означает начало комментариев

User-agent: Yandex

Disallow: / # блокирует доступ ко всему сайту

 

User-agent: Yandex

Disallow: /cgi-bin # блокирует доступ к страницам начинающимся с '/cgi-bin'

 

Использование спецсимволов "*" и "$"

User-agent: Yandex

Disallow: /cgi-bin/*.aspx

# запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'

Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

 

Директива Host

#Если www.mysite.ru главное зеркало сайта, то robots.txt

#для всех сайтов из группы зеркал выглядит так

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: www.mysite.ru

Цитата из мануала яндекса "Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow')."

 

Директива Sitemap

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Sitemap: http://mysite.ru/sitemaps.xml

 

Рекомендация "Блок кода, адресованный всем паукам (User-Agent: *) должен быть последним для уменьшения проблем интерпретации с некоторыми старыми роботами." - не знаю насколько это критично.

Между блоками записи для разных поисковых роботов пробел. Эту рекомендацию дал яндекс.

 

Из всего обозначенного полный вариант роботса с директивой хост и ссылкой на карту сайта xml будет выглядеть так:

User-Agent: Yandex

Disallow: /forum

Disallow: /cgi-bin

Allow: /

Host: www.mysite.ru

Sitemap: http://mysite.ru/sitemaps.xml

 

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Allow: /

Sitemap: http://mysite.ru/sitemaps.xml


Полезные ссылки и информация о файле robots.

Перечень названий поисковых роботов можно посмотреть в специальных разделах поисковиков «помощь веб-мастеру».

Вот некоторые из них:

Google – «googlebot»;

Яндекс – «Yandex»;

Рамблер – «StackRambler»;

Yahoo – «Yahoo! Slurp»;

MSN – «msnbot».

Информация]]> о файле робот на русском.

]]>Помощь]]> яндекса: все об использовании robots.txt.

Файл robots.txt для Wordpress - пример файла для вордпресс.

Правильный robots txt для joomla - настройка роботса для джумлы.

Что такое зеркало сайта? - использование файла роботс для указания главного зеркала.

Сообщение от Яндекса о новых правилах обработки директив Allow и Disallow в файле robots.txt

7.03.2012

Изменение касается тех страниц, которые попадают под действия нескольких директив 'Allow' и/или 'Disallow'.

В этом случае будет применяться директива с наибольшей длиной префикса URL. При определении длины префикса спецсимвол '*' не учитывается.

Если на вашем сайте в robots.txt совместно используются директивы 'Allow' и 'Disallow', пожалуйста, проверьте их на соответствие новым стандартам с помощью ]]>формы]]> проверки robots.txt в панели вебмастера.

Tags: 

Обновления SEO-руководств "SEO Винчестер" и "SEO Коллайдер" на момент июня 2018 года с учетом всех последних изменений алгоритмов ПС.

Предлагаю для своих читателей  50% скидку на любую книгу без ограничения по времени!

Для получения скидки и обеих книг пишите напрямую Михаилу Шакину на globatorseo@gmail.com С КОДОМ master-live.ru  

Обе книги по 80 страниц каждая практики. Всего 160 страниц. 

Винчестер - это эффективные методы оптимизации коммерческих сайтов. 

Коллайдер - 20 методов продвижения, которые использует на практике Михаил Шакин. Очень подробно про ссылочное. При этом о многих наработках он нигде не писал для открытого доступа.

Навигатор по интернету

Узнать простую, но эффективную систему для наращивания трафика. Плюс эта книга с правами перепродажи. 

Узнать подробнее!

Создание сайта

Сделать веб-сайт по приемлемым ценамЗаказать создание сайта под ключ. Цена: недорого.





* Нажимая на кнопку "Отправить" я соглашаюсь с политикой конфиденциальности