2.19.5.1. Карта сайту sitemap.xml
Файл карти сайту sitemap.xml у стандартизованій формі показує пошуковим системам список сторінок, які підлягають індексації. Опис протоколу доступний на офіційному сайті.
Важливі моменти:
- Файл
sitemap.xmlповинен мати саме таку назву, а його кодування має бути UTF-8. - Розмір одного файлу
sitemap.xmlне повинен перевищувати 50 МБ. Якщо файл більше 50 МБ, то потрібно або архівувати його (з обов'язковим дотриманням розширення видуxml.zipабоxml.tar), або створити групу з декількох карт сайту. - В одному файлі
sitemap.xmlмає бути не більше 50 000 посилань. - Файл
sitemap.xmlрозміщується в кореневому каталозі сайту і має бути доступним через браузер за адресою виглядуhttp://www.example.com/sitemap.xml. - Усі посилання в карті сайту мають бути абсолютними (вигляду
http://www.example.com/). - Карта сайту повинна відповідати вимогам потрібного пошукового робота, оскільки деякі з них мають певні умови для використання цього файлу.
- Карта сайту, яка використовується пошуковими роботами, є лише рекомендацією. Роботи можуть її ігнорувати в разі помилок у самій карті або з інших власних причин.
- Деякі спеціальні символи мають бути обов'язково замасковані.
Синтаксис sitemap.xml
При складанні карти сайту потрібно дотримуватися певного синтаксису. Мінімальна карта сайту з коректно складеним синтаксисом виглядає приблизно так:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://example.com/</loc>
</url>
</urlset>
Теги
У файлі sitemap.xml застосовуються наступні теги:
<?xml version="1.0" encoding="UTF-8"?>— пролог XML-файлу. У цьому рядку вказується кодування та версія XML. Цей рядок завжди має бути першим і він є обов'язковим. Обов'язковий тег<urlset>...</urlset>— батьківський тег, всередині якого розміщуються всі наступні вказівки на сторінки сайту за допомогою тегів<url>. Обов'язковий тег
У відкриваючому тегу має бути вказаний поточний протокол, тобто так:<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">...</urlset><url>...</url>— тег, всередині якого міститься сама URL-адреса та інформація про неї. Обов'язковий тег<loc></loc>— тег, в якому вказується певний URL. Обов'язковий тег<lastmod></lastmod>— дати останньої зміни. Необов'язковий тег<changefreq></changefreq>— ймовірна частота зміни цієї сторінки. Цей тег має лише рекомендаційний характер. Необов'язковий тег
Допустимі значення:always— перевіряти зміни при кожній індексації.hourly/daily/weekly/monthly/yearly— перевіряти зміни з певним інтервалом. Кожен: година/день/тиждень/місяць/рік.never— ніколи не перевіряти зміни.
<priority></priority>— пріоритетність URL щодо інших URL, зазначених у карті сайту. Значення задається від 0.0 до 1.0, за замовчуванням для всіх URL дорівнює 0.5. Необов'язковий тегУвага!
Тег priority не впливає на видачу сторінок у пошуку. Його значення впливає тільки на чергу індексації між сторінками сайту.
Маскування символів
У XML-файлах для всіх даних (включаючи URL-адреси) символи & (амперсанд), ' (одинарні лапки), " (подвійні лапки), < (більше) і > (менше) обов'язково мають бути вказані у вигляді HTML-сутностей (починаються з &).
Створення групи декількох файлів sitemap
Якщо файл sitemap.xml має розмір більше 50 МБ або включає в себе більше 50 000 посилань, то потрібно розділити його на кілька файлів, при цьому створивши файл sitemap.xml, який буде вести на інші файли карт сайту.
Приклад файлу індексу sitemap:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml</loc>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml</loc>
</sitemap>
</sitemapindex>
Файл індексу sitemap має такий синтаксис:
<?xml version="1.0" encoding="UTF-8"?>— пролог XML-файлу. У цьому рядку вказується кодування та версія XML. Цей рядок завжди має бути першим і він є обов'язковим. Обов'язковий тег<sitemapindex>...</sitemapindex>— батьківський тег, всередині якого розміщуються всі наступні вказівки на файли карт сайту. Обов'язковий тег<sitemap>...</sitemap>— тег, всередині якого міститься URL-адреса, що вказує на файл sitemap, та інформація про нього. Обов'язковий тег<loc></loc>— тег, в якому вказується певний URL на файл sitemap. Обов'язковий тег<lastmod></lastmod>— дата останньої зміни. Необов'язковий тег
Сервіси генерації та перевірки sitemap
Приклади сервісів для генерації та перевірки файлів sitemap.