robots.txt позволяет установить запрет на индексацию определенных страниц или раздела сайта, указать пути к основному зеркалу сайта, а также к файлу карты сайта.
Зачем нужен robots.txt для сайта
Итак, как понятно из названия robots.txt – это файл, который будет находиться в каталоге сайта. Он содержит в себе набор инструкций для поискового робота. Эти своеобразные «правила» позволяют установить запрет на индексацию определенных страниц или раздела сайта, указать пути к основному зеркалу сайта, а также к файлу sitemap. Особенно полезность функции этого файла заключается в том, что с его помощью можно закрыть для индексации техническую часть сайта. Если технические страницы не закрыты от индексации, то робот самостоятельно попытается определить, где на сайте техническая информация, а где полезная. В итоге есть риск, что он может не проиндексировать содержательные страницы.
Генерация (создание) robots.txt
Создать robots.txt для сайта можно любым текстовым редактором, в том числе с помощью блокнота. Полученный файл помещается в корневой каталог сайта. Это актуально потому, что, «заходя» на сайт, робот в первую очередь осуществляет поиск данного файла, чтобы получить «ценные указания» для индексации именно этого сайта. Далее настраиваем директивы: При подгонке robots.txt для сайта используются директивы. Основные – это User-agent и Disallow. Первая устанавливает какому из поисковых роботов запрещена индексация, вторая обозначает, что конкретно запрещено. Если прописать “User-agent: * Disallow:/”, то это запретит полностью индексацию сайта для любой поисковой системы.
После директивы Disallow указывается путь к каталогу или файлу сайта, который следует закрыть для индексации. Важно помнить, что каждый путь следует прописывать в отдельной строке, иначе запрет не будет действительным. В случае, если наоборот необходимо указать на то, что данная страничка или раздел должны быть открыты для индексации, используется директива Allow.
Дополнительные директивы
Host предназначена для сайтов, у которых есть несколько зеркал. Именно, с помощью Host указывается основной из них, который будет отображаться в выдачах поисковика.
С помощью директивы Sitemap поисковый робот получает указание на место, где находится файл с описанием карты сайта.
Если веб-ресурс состоит из множества страниц, то в файле robots.txt для сайта следует прописать директиву Crawl-delay, которая позволяет установить задержку между загрузкой страниц сайта. Например, «Crawl-delay: 6» устанавливает временную задержку в 6 секунд.
Директива Request-rate устанавливает периодичность загрузки. «Request-rate: 1/10» означает, что поисковый робот загружает 1 страницу в течение десяти секунд.
С помощью Visit Тime можно установить период времени, в которое поисковому роботу разрешается загружать страницы. Временной показатель указывается по Гринвичу. Например, «Visit Тime: 0800-1000».
Пример настройки robots.txt
User-agent: *
Disallow: /admin
Disallow: /uploads/*
Disallow: /contacts
Disallow: /system
Disallow: /private
Disallow: /system/*
User-agent: AhrefsBot
Disallow: /
Host: https://analizsite.ru
Sitemap: https://analizsite.ru/sitemap.xml
Правильность настройки
Следует помнить и понимать, что некорректная настройка файла может привести к непоправимым последствиям. Например, конфиденциальная информация о пользователях сайта может попасть в поисковые выдачи. И в то же время, страницы с полезным содержанием могут оказать вне индекса поисковых систем.