Мы используем cookie-файлы
Для оптимизации работы нашего сайта мы используем cookie-файлы. Продолжая использовать сайт, Вы соглашаетесь с использованием cookie-файлов.
Панель управления
  • Русский
  • Українська
  • English
  • UAH
  • USD
  • RUB
  • EUR
  • 0-800-307-307  Горячая линия
  • +38(044) 392-74-33  Киев
  • +38(057) 728-39-00  Харьков
  • +38(056) 794-38-31  Днепр
  • +38(032) 229-58-93  Львов
  • +38(048) 738-57-70  Одесса
  • +38(093) 170-15-42  Life
  • +38(067) 400-88-44  Киевстар
  • +1(888)393-24-51  USA, Toll free
  • +44(131)507-01-14  Great Britain
  • +7(499) 348-28-61  Москва

2.38. robots.txt

Файл robots.txt состоит из групп правил, которые определяют поведение роботов на сайте.

Важные моменты:

  • Файл robots.txt должен иметь именно такое название и его кодировка должна быть UTF-8.
  • Файл robots.txt не должен иметь размер более 32 КБ.
  • Файл robots.txt должен находиться в корневом каталоге сайта. То есть он должен быть доступен через браузер по адресу вида http://www.example.com/robots.txt.
  • На одном сайте может существовать только один файл robots.txt.
  • Каждая директива должна начинаться с новой строки.
  • По умолчанию все страницы сайта разрешены для обработки роботом. Запрет для определенных страниц производится при помощи директивы Disallow.
  • Правила чувствительны к регистру.

Каждая группа может содержать несколько одинаковых правил. К примеру, это удобно для указания нескольких роботов или страниц.

Группа правил должна быть в следующем порядке и состоять из указанных директив:

  1. User-agentобязательная директива, может быть указана множество раз в одной группе правил.
  2. Disallow и Allowобязательные директивы. Как минимум одна из них должна быть указана в каждой группе правил.
  3. Host, Crawl-delay, Sitemap — необязательные директивы.

Для указания регулярных выражений используются:

  • * — означает последовательность любой длины из любых символов.
  • $ — означает конец строки.

Директива User-agent определяет имя робота, на которого будет распространяться правило. Для указания всех роботов можно использовать:

User-agent: *

Если данная директива будет указана с определенным именем робота — правило с * будет проигнорировано.

Указанные директивы разрешат доступ роботу с именем Googlebot и запретят остальным:

User-agent: *
Dissalow: /
User-agent: Googlebot
Dissalow: 

Директива Disallow определяет страницы, к которым запрещён доступ роботов.

Запретить доступ ко всему сайту можно, указав:

Dissalow: /

Запрет к отдельным страницам можно указать так:

Dissalow: /admin

Директива Allow определяет страницы, к которым запрещён доступ роботов. Директива используется для создания исключений при указании Disallow.

Следующее правило указывает заблокировать для робота Googlebot весь сайт, кроме каталога pages:

User-agent: Googlebot
Disallow: /
Allow: /pages/

Директива Host определяет основной домен сайта. Директива полезна, если к сайту привязано несколько доменных имён и для корректной поисковой индексации, таким образом, можно указать, какой домен будет являться основным, чтобы остальные домены были определены как зеркала, технические адреса и т. д.

Пример использования директивы в рамках сайта с доменами example.com и domain.com, где для всех роботов example.com будет основным доменом:

User-agent: *
Disallow: 
Host: domain.com

Директива Crawl-delay определяет интервал между окончанием загрузки одной страницы и началом загрузки следующей для роботов. Данная директива полезна для уменьшения запросов к сайту, что помогает снизить нагрузку на сервер. Интервал указывается в секундах.

Пример использования:

User-Agent: *
Disallow:
Crawl-delay: 3

Директива Sitemap определяет URL-адрес файла sitemap на сайте. Данная директива может быть указана множество раз. Указание адреса должно быть обязательно в формате протокол://адрес/путь/к/sitemap.

Пример использования:

Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
Для реализации существующий файл robots.txt должен быть удалён, а также в настройках сайта должен быть установлен параметр «Передавать запросы на бекенд в случае, если файл не найден» или расширение txt должно быть удалено из статических файлов.

Если на сайте используется несколько доменов, например с помощью псевдонимов, то настройки, указываемые в файле robots.txt, могут отличаться для каждого сайта в связи с определённой SEO-оптимизацией или другими задачами. Для реализации динамического robots.txt выполните следующее:

  1. Ознакомьтесь с важной информацией из данной статьи и убедитесь, что все условия выполнены.
  2. Создайте файлы domain.com-robots.txt в корневом каталоге сайта, где вместо domain.com укажите домен, для которого будут применяться указанные правила.
  3. Укажите необходимые правила для каждого домена в созданных файлах.
  4. Настройте вывод файлов, добавив в начале файла .htaccess следующие правила:
    RewriteEngine On
    RewriteCond %{REQUEST_URI} ^/robots\.txt$
    RewriteRule ^robots\.txt$ %{HTTP_HOST}-robots.txt [L]
  5. Проверьте вывод правил по каждому из доменов.