Все про ROBOTS.TXT і його синтаксис
Основний синтаксис
User-Agent: робот для якого будуть застосовуватися такі правила (наприклад, «Googlebot»)
Disallow: сторінки, до яких ви хочете закрити доступ (можна вказати великий список таких директив з кожною новою рядки)
Кожна група User-Agent / Disallow повинні бути розділені символом нового рядка. Але, не порожні рядки не повинні існувати в рамках групи (між User-Agent і останньої директиви Disallow).
Символ хеш (#) може бути використаний для коментарів у файлі robots.txt: для поточного рядка все що після # буде ігноруватися. Дані коментар може бути використаний як для всього рядка, так в кінці рядка після директив.
Каталоги і імена файлів чутливі до регістру: «catalog», «Catalog» і «CATALOG» – це все різні директорії для пошукових систем.
Host: застосовується для зазначення Яндексу основного дзеркала сайту. Тому, якщо ви хочете склеїти 2 сайта і робите посторінковий 301 редирект, то для файлу robots.txt (на дублюючому сайті) НЕ треба робити редирект, щоб Яндекс міг бачити цю директиву саме на сайті, який необхідно склеїти.
Crawl-delay: можна обмежити швидкість обходу вашого сайту, так як якщо у вашого сайту дуже велика відвідуваність, то, навантаження на сервер від різних пошукових роботів може призводити до додаткових проблем.
Регулярні вирази: для більш гнучкого налаштування своїх директив ви можете використовувати 2 символи
* (Зірочка) – означає будь-яку послідовність символів
$ (Знак долара) – означає кінець рядка
Основні приклади використання robots.txt
Заборона на індексацію всього сайту
User-agent: *
Disallow: /
Цю інструкцію важливо використовувати, коли ви розробляєте новий сайт і викладаєте доступ до нього, наприклад, через піддомен.
Дуже часто розробники забувають таким чином закрити від індексації сайт і отримуємо відразу повну копію сайту в індексі пошукових систем. Якщо це все-таки відбулося, то треба зробити посторінковий 301 редирект на ваш основний домен.
А така конструкція ДОЗВОЛЯЄ індексувати весь сайт:
User-agent: *
Disallow:
Заборона на індексацію певної папки
User-agent: Googlebot
Disallow: /no-index/
Заборона на відвідування сторінки для певного робота
User-agent: Googlebot
Disallow: /no-index/this-page.html
Заборона на індексацію файлів певного типу
User-agent: *
Disallow: /*.pdf$
Дозволити певним пошуковим роботу відвідувати певну сторінку
User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: Yandex
Allow: /no-bots/block-all-bots-except-Yandex-page.html
Посилання на Sitemap
User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml
Нюанси з використанням даної директиви: якщо у вас на сайті постійно додається унікальний контент, то
-
краще НЕ додавати в robots.txt посилання на вашу карту сайту,
-
саму карту сайту зробити з нестандартну назву sitemap.xml (наприклад, my-new-sitemap.xml і після цього додати це посилання через «вебмастерси» пошукових систем),
так як, дуже багато недобросовісних вебмайстрів Парс з чужих сайтів контент і використовують для своїх проектів.
Шаблон для WordPress
Allow: /wp-content/themes/*.js
Allow: /wp-content/themes/*.css
Allow: /wp-includes/js/*.css Allow: /wp-includes/js/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/plugins/*.css
Шаблон для Joomla
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /templates/*.png
Allow: /templates/*.gif
Allow: /templates/*.ttf
Allow: /templates/*.svg
Allow: /templates/*.woff
Allow: /components/*.css
Allow: /components/*.js
Allow: /media/*.js Allow: /media/*.css
Allow: /plugins/*.css Allow: /plugins/*.js
Шаблон для Bitrix
Allow: /bitrix/templates/*.js
Allow: /bitrix/templates/*.png
Allow: /bitrix/templates/*.jpg
Allow: /bitrix/templates/*.gif
Allow: /bitrix/cache/css/*.css
Allow: /bitrix/cache/js/s1/*.js
Allow: /upload/iblock/*.jpg
Allow: /upload/iblock/*.png
Allow: /upload/iblock/*.gif
Шаблон для DLE
Allow: /engine/classes/*.css
Allow: /engine/classes/*.js
Allow: /templates/
Розібравшись з простим синтаксисом команд для робота, також важливо врахувати і такі значення мета-тега robots
Даному мета-тегу можна привласнити чотири варіанти значень.
Атрибут content може містити наступні значення:
index, noindex, follow, nofollow
Якщо значень кілька, вони розділяються комами.
В даний час лише у такому значенні важливі:
Директива INDEX говорить роботу, що дану сторінку можна індексувати.
Директива FOLLOW повідомляє роботу, що йому дозволяється пройтися по посиланнях, присутнім на цій сторінці. Деякі автори стверджують, що при відсутності даних значень, пошукові сервера за замовчуванням діють так, як якщо б їм дано директиви INDEX і FOLLOW.
Отже, глобальні директиви виглядають так:
Індексувати все = INDEX, FOLLOW
Чи не індексувати нічого = NOINDEX, NOFLLOW
Приклади мета-тега robots:
Замовляйте хостинг та вибирайте домен в компанії «Хостинг Україна».
У нас якісний і надійний сервіс, зручне система управління через адмін-панель, інтелектуальні системи захисту і технічна підтримка, Яка допоможе вирішити всі виникаючі питання в будь-який час доби.
Наші ціни: SSD хостинг від 1$, VPS на SSD від 12$, Cloud (хмарний) хостинг від 3$, Хмарний VPS від 6$.
Приєднуйтесь до «Хостинг Україна» і ми подбаємо про технічну сторону вашого бізнесу.
User-agent: *
Disallow: /page/*html$
Это всем известно.
Но вот что интересно, следующий пример тоже работает, проверено через Google Search Console:
User-agent: *
Disallow: /page/*/