Ми використовуємо cookie-файли
Для оптимізації роботи нашого сайту ми використовуємо cookie-файли. Продовжуючи використовувати сайт, Ви погоджуєтеся з використанням cookie-файлів.
Новий дизайн
Панель керування
  • Русский
  • Українська
  • English
  • UAH
  • USD
  • RUB
  • EUR
  • 0-800-307-307 Гаряча лінія
  • +38 (044) 392-74-33 Київ
  • +38 (057) 728-39-00 Харків
  • +38 (056) 794-38-31 Дніпро
  • +38 (032) 229-58-93 Львів
  • +38 (048) 738-57-70 Одеса
  • +38(093) 170-15-42  Life
  • +38 (067) 400-88-44 Київстар
  • +1(888)393-24-51  USA, Toll free
  • +44(131)507-01-14  Great Britain
  • +7 (499) 348-28-61 Москва

2.38. robots.txt

Файл robots.txt складається з груп правил, які визначають поведінку роботів на сайті.

Важливі моменти:

  • Файл robots.txt повинен мати саме таку назву і його кодування повинна бути UTF-8.
  • Файл robots.txt не повинен мати розмір більше 32 КБ.
  • Файл robots.txt повинен знаходитися о кореневому каталозі сайту. Тобто він повинен бути доступний через браузер за адресою виду http://www.example.com/robots.txt.
  • На одному сайті може існувати тільки один файл robots.txt.
  • Кожна директива повинна починатися з нового рядка.
  • За замовчуванням Усе сторінки сайту дозволені для обробки роботом. Заборона для певних сторінок проводиться за допомогою директиви Disallow.
  • Правила чутливі до регістру.

Кожна група може містити кілька однакових правил. Наприклад, це зручно для вказівки кількох роботів або сторінок.

Група правил повинна бути о такому порядку і складатися із зазначених директив:

  1. User-agentобов'язкова директива, може бути вказана безліч разів о одній групі правил.
  2. Disallow і Allowобов'язкові директиви. Як мінімум одна з них повинна бути вказана о кожній групі правил.
  3. Host, Crawl-delay, Sitemap - необов'язкові директиви.

Для вказівки регулярних виразів використовуються:

  • * - означає послідовність будь-якої довжини з будь-яких символів.
  • $ - означає кінець рядка.

Директива User-agent визначає ім'я робота, на якого буде поширюватися правило. Для вказівки всіх роботів можна використовувати:

User-agent: *

Якщо дана директива буде вказана з певним ім'ям робота - правило з * буде проігноровано.

Зазначені директиви дозволять доступ роботу з ім'ям Googlebot і заборонять іншим:

User-agent: *
Dissalow: /
User-agent: Googlebot
Dissalow: 

Директива Disallow визначає сторінки, до яких заборонений доступ роботів.

Заборонити доступ до всього сайту можна, вказавши:

Dissalow: /

Заборона до окремих сторінок можна вказати так:

Dissalow: /admin

Директива Allow визначає сторінки, до яких заборонений доступ роботів. Директива використовується для створення виключень при вказівці Disallow.

Наступне правило вказує заблокувати для робота Googlebot весь сайт, крім каталогу pages:

User-agent: Googlebot
Disallow: /
Allow: /pages/

Директива Host визначає Основний домен сайту. Директива корисна, якщо до сайту прив'язане кілька доменних імен і для коректної пошукової індексації, таким чином, можна вказати, який домен буде основним, щоб інші домени були визначені як дзеркала, технічні адреси і т. Д.

Приклад використання директиви о рамках сайту з доменами example.com і domain.com, Де для всіх роботів example.com буде основним доменом:

User-agent: *
Disallow: 
Host: domain.com

Директива Crawl-delay визначає інтервал між закінченням завантаження однієї сторінки і початком завантаження наступної для роботів. Дана директива корисна для зменшення запитів до сайту, що допомагає знизити навантаження на сервер. Інтервал вказується о секундах.

Приклад використання:

User-Agent: *
Disallow:
Crawl-delay: 3

Директива Sitemap визначає URL-адреса файлу sitemap на сайті. Дана директива може бути вказана безліч разів. Вказівка адреси повинно бути обов'язково о форматі протокол://адреса/шлях/до/sitemap.

Приклад використання:

Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
Для реалізації існуючий файл robots.txt повинен бути вилучений, а також о налаштуваннях сайту повинен бути встановлений параметр «Передавати запити на бекенд о разі, якщо файл не знайдений»Або розширення txt має бути видалено з статичних файлів.

Якщо на сайті використовується кілька доменів, наприклад за допомогою псевдонімів, То настройки, які вказуються у файлі robots.txt, Можуть відрізнятися для кожного сайту о зв'язку з певною SEO-оптимізацією або іншими завданнями. Для реалізації динамічного robots.txt виконайте наступне:

  1. Ознайомтеся з важливою інформацією з даної статті і переконайтеся, що всі умови виконані.
  2. Створіть файли domain.com-robots.txt о кореневому каталозі сайту, де замість domain.com вкажіть домен, для якого будуть застосовуватися зазначені правила.
  3. Вкажіть необхідні правила для кожного домена о створених файлах.
  4. Налаштуйте висновок файлів, додавши на початку файлу .htaccess такі правила:
    RewriteEngine On
    RewriteCond %{REQUEST_URI} ^/robots\.txt$
    RewriteRule ^robots\.txt$ %{HTTP_HOST}-robots.txt [L]
  5. Перевірте висновок правил по кожному з доменів.