Файл robots.txt
складається з груп правил, які визначають поведінку роботів на сайті.
robots.txt
повинен мати саме таку назву і його кодування повинна бути UTF-8.robots.txt
не повинен мати розмір більше 32 КБ.robots.txt
повинен знаходитися о кореневому каталозі сайту. Тобто він повинен бути доступний через браузер за адресою виду http://www.example.com/robots.txt
.robots.txt
.Disallow
.Кожна група може містити кілька однакових правил. Наприклад, це зручно для вказівки кількох роботів або сторінок.
Група правил повинна бути о такому порядку і складатися із зазначених директив:
User-agent
— обов'язкова директива, може бути вказана безліч разів о одній групі правил.Disallow
і Allow
— обов'язкові директиви. Як мінімум одна з них повинна бути вказана о кожній групі правил.Host
, Crawl-delay
, Sitemap
- необов'язкові директиви.Для вказівки регулярних виразів використовуються:
*
- означає послідовність будь-якої довжини з будь-яких символів.$
- означає кінець рядка.
Директива User-agent
визначає ім'я робота, на якого буде поширюватися правило. Для вказівки всіх роботів можна використовувати:
User-agent: *
Якщо дана директива буде вказана з певним ім'ям робота - правило з *
буде проігноровано.
Зазначені директиви дозволять доступ роботу з ім'ям Googlebot
і заборонять іншим:
User-agent: * Dissalow: / User-agent: Googlebot Dissalow:
Директива Disallow
визначає сторінки, до яких заборонений доступ роботів.
Заборонити доступ до всього сайту можна, вказавши:
Dissalow: /
Заборона до окремих сторінок можна вказати так:
Dissalow: /admin
Директива Allow
визначає сторінки, до яких заборонений доступ роботів. Директива використовується для створення виключень при вказівці Disallow
.
Наступне правило вказує заблокувати для робота Googlebot
весь сайт, крім каталогу pages
:
User-agent: Googlebot Disallow: / Allow: /pages/
Директива Host
визначає Основний домен сайту. Директива корисна, якщо до сайту прив'язане кілька доменних імен і для коректної пошукової індексації, таким чином, можна вказати, який домен буде основним, щоб інші домени були визначені як дзеркала, технічні адреси і т. Д.
Приклад використання директиви о рамках сайту з доменами example.com
і domain.com
, Де для всіх роботів example.com
буде основним доменом:
User-agent: * Disallow: Host: domain.com
Директива Crawl-delay
визначає інтервал між закінченням завантаження однієї сторінки і початком завантаження наступної для роботів. Дана директива корисна для зменшення запитів до сайту, що допомагає знизити навантаження на сервер. Інтервал вказується о секундах.
Приклад використання:
User-Agent: * Disallow: Crawl-delay: 3
Директива Sitemap
визначає URL-адреса файлу sitemap на сайті. Дана директива може бути вказана безліч разів. Вказівка адреси повинно бути обов'язково о форматі протокол://адреса/шлях/до/sitemap
.
Приклад використання:
Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml
robots.txt
повинен бути вилучений, а також о налаштуваннях сайту повинен бути встановлений параметр «Передавати запити на бекенд о разі, якщо файл не знайдений»Або розширення txt
має бути видалено з статичних файлів.
Якщо на сайті використовується кілька доменів, наприклад за допомогою псевдонімів, То настройки, які вказуються у файлі robots.txt
, Можуть відрізнятися для кожного сайту о зв'язку з певною SEO-оптимізацією або іншими завданнями. Для реалізації динамічного robots.txt
виконайте наступне:
domain.com-robots.txt
о кореневому каталозі сайту, де замість domain.com
вкажіть домен, для якого будуть застосовуватися зазначені правила..htaccess
такі правила:RewriteEngine On RewriteCond %{REQUEST_URI} ^/robots\.txt$ RewriteRule ^robots\.txt$ %{HTTP_HOST}-robots.txt [L]