Все про ROBOTS.TXT і його синтаксис

Основний синтаксис

User-Agent: робот для якого будуть застосовуватися такі правила (наприклад, «Googlebot»)

Disallow: сторінки, до яких ви хочете закрити доступ (можна вказати великий список таких директив з кожною новою рядки)

Кожна група User-Agent / Disallow повинні бути розділені символом нового рядка. Але, не порожні рядки не повинні існувати в рамках групи (між User-Agent і останньої директиви Disallow).

Символ хеш (#) може бути використаний для коментарів у файлі robots.txt: для поточного рядка все що після # буде ігноруватися. Дані коментар може бути використаний як для всього рядка, так в кінці рядка після директив.

Каталоги і імена файлів чутливі до регістру: «catalog», «Catalog» і «CATALOG» – це все різні директорії для пошукових систем.

Host: застосовується для зазначення Яндексу основного дзеркала сайту. Тому, якщо ви хочете склеїти 2 сайта і робите посторінковий 301 редирект, то для файлу robots.txt (на дублюючому сайті) НЕ треба робити редирект, щоб Яндекс міг бачити цю директиву саме на сайті, який необхідно склеїти.

Crawl-delay: можна обмежити швидкість обходу вашого сайту, так як якщо у вашого сайту дуже велика відвідуваність, то, навантаження на сервер від різних пошукових роботів може призводити до додаткових проблем.

Регулярні вирази: для більш гнучкого налаштування своїх директив ви можете використовувати 2 символи

* (Зірочка) – означає будь-яку послідовність символів

$ (Знак долара) – означає кінець рядка

Основні приклади використання robots.txt

Заборона на індексацію всього сайту

User-agent: *

Disallow: /

Цю інструкцію важливо використовувати, коли ви розробляєте новий сайт і викладаєте доступ до нього, наприклад, через піддомен.

Дуже часто розробники забувають таким чином закрити від індексації сайт і отримуємо відразу повну копію сайту в індексі пошукових систем. Якщо це все-таки відбулося, то треба зробити посторінковий 301 редирект на ваш основний домен.

А така конструкція ДОЗВОЛЯЄ індексувати весь сайт:

User-agent: *

Disallow:

Заборона на індексацію певної папки

User-agent: Googlebot

Disallow: /no-index/

Заборона на відвідування сторінки для певного робота

User-agent: Googlebot

Disallow: /no-index/this-page.html

Заборона на індексацію файлів певного типу

User-agent: *

Disallow: /*.pdf$

Дозволити певним пошуковим роботу відвідувати певну сторінку

User-agent: *

Disallow: /no-bots/block-all-bots-except-rogerbot-page.html

User-agent: Yandex

Allow: /no-bots/block-all-bots-except-Yandex-page.html

Посилання на Sitemap

User-agent: *

Disallow:

Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Нюанси з використанням даної директиви: якщо у вас на сайті постійно додається унікальний контент, то

  • краще НЕ додавати в robots.txt посилання на вашу карту сайту,

  • саму карту сайту зробити з нестандартну назву sitemap.xml (наприклад, my-new-sitemap.xml і після цього додати це посилання через «вебмастерси» пошукових систем),

так як, дуже багато недобросовісних вебмайстрів Парс з чужих сайтів контент і використовують для своїх проектів.

Шаблон для WordPress

Allow: /wp-content/themes/*.js 

Allow: /wp-content/themes/*.css 

Allow: /wp-includes/js/*.css Allow: /wp-includes/js/*.js 

Allow: /wp-content/plugins/*.js 

Allow: /wp-content/plugins/*.css 

Шаблон для Joomla

Allow: /templates/*.css 

Allow: /templates/*.js 

Allow: /templates/*.png 

Allow: /templates/*.gif 

Allow: /templates/*.ttf 

Allow: /templates/*.svg 

Allow: /templates/*.woff 

Allow: /components/*.css 

Allow: /components/*.js 

Allow: /media/*.js Allow: /media/*.css 

Allow: /plugins/*.css Allow: /plugins/*.js 

Шаблон для Bitrix

Allow: /bitrix/templates/*.js 

Allow: /bitrix/templates/*.png 

Allow: /bitrix/templates/*.jpg 

Allow: /bitrix/templates/*.gif 

Allow: /bitrix/cache/css/*.css 

Allow: /bitrix/cache/js/s1/*.js 

Allow: /upload/iblock/*.jpg 

Allow: /upload/iblock/*.png 

Allow: /upload/iblock/*.gif 

Шаблон для DLE

Allow: /engine/classes/*.css 

Allow: /engine/classes/*.js 

Allow: /templates/ 

Розібравшись з простим синтаксисом команд для робота, також важливо врахувати і такі значення мета-тега robots

Даному мета-тегу можна привласнити чотири варіанти значень.

Атрибут content може містити наступні значення:

index, noindex, follow, nofollow

Якщо значень кілька, вони розділяються комами.

В даний час лише у такому значенні важливі:

Директива INDEX говорить роботу, що дану сторінку можна індексувати.

Директива FOLLOW повідомляє роботу, що йому дозволяється пройтися по посиланнях, присутнім на цій сторінці. Деякі автори стверджують, що при відсутності даних значень, пошукові сервера за замовчуванням діють так, як якщо б їм дано директиви INDEX і FOLLOW.

Отже, глобальні директиви виглядають так:

Індексувати все = INDEX, FOLLOW

Чи не індексувати нічого = NOINDEX, NOFLLOW

Приклади мета-тега robots:

Приклади мета-тега robots:


Замовляйте хостинг та вибирайте домен в компанії «Хостинг Україна».

У нас якісний і надійний сервіс, зручне система управління через адмін-панель, інтелектуальні системи захисту і технічна підтримка, Яка допоможе вирішити всі виникаючі питання в будь-який час доби.

Наші ціни: SSD хостинг від 1$, VPS на SSD від 12$, Cloud (хмарний) хостинг від 3$, Хмарний VPS від 6$.

Приєднуйтесь до «Хостинг Україна» і ми подбаємо про технічну сторону вашого бізнесу.

Коментарі

pavlo.vynogradov
Недавно столкнулся с задачей - заблокировать все url в robots.txt по шаблону. Это можно сделать например, если страница заканчивается расширением, то:

User-agent: *
Disallow: /page/*html$

Это всем известно.
Но вот что интересно, следующий пример тоже работает, проверено через Google Search Console:

User-agent: *
Disallow: /page/*/