
Для оптимизации вашего сайта рекомендуется использовать файл robots.txt, который можно использовать для определения того, к каким разделам вашего сайта разрешен доступ для роботов, а какие недоступны. Этот файл в основном используется для связи с поисковыми роботами.
Каждый раз, когда робот посещает страницу, он сначала просматривает файл перед поиском и индексацией содержимого сайта. Важно отметить, что некоторые роботы (обычно плохие - вредоносные программы или спам-боты) могут игнорировать файл.
Вторым важным примечанием является то, что файл является общедоступным, и каждый может просматривать его настройки.
Так почему так важно настроить robots.txt? Этот файл помогает роботам сканировать страницы. Если файл у вас отсутствует или неправильно настроен, это может затруднить сканирование страницы. Несуществующий или пустой файл robots.txt означает, что поисковая система может индексировать сайт без ограничений.
Расположение файла и имя файла
Файл robots.txt всегда должен находиться в корневой папке сайта, то есть в том же месте, что и стартовая страница сайта (index.html). Например, для proitblog.ru файл будет помещен непосредственно после первого слеша, т.е. proitblog.ru/robots.txt . Для правильной настройки необходимо использовать только строчные буквы и сохранять точное имя файла (т.е. именно «robots.txt»).
Содержание файла
Первое, что следует включить в настройку, - это путь к файлу sitemap.xml. файл можно ввести несколько адресов файлов XML, например:
Второй момент - это настройка, для которой роботы будут применять правила. Обозначение «User-agent: *» говорит о том, что правила распространяются на всех. Возможности определения поисковой системы роботов в robots.txt - это, например, Googlebot, Googlebot-Image и другие.
В этом случае список может выглядеть следующим образом: User-agent: Googlebot-Image
Вы можете использовать функцию «Запретить», чтобы предотвратить доступ к отдельным компонентам структуры сайта. Например, «Disallow: / administrator» отключает доступ к папке администратора, которая используется CMS для входа в интерфейс администрирования. Это также одна из основных функций безопасности.
Вы можете использовать слеш, чтобы заблокировать весь сайт роботов. Таким образом - Disallow: / Возможно заблокировать отдельные HTML-страницы. Например, предотвращая доступ к странице формы, вы можете избежать нежелательного спама. Используйте Disallow: /hidden-file.html, чтобы заблокировать отдельные страницы
Подстановочные знаки можно использовать в файле robots.txt. Они, * и $. Звездочка (*) заменяет любую символьную строку (может появляться в правиле несколько раз). Доллар ($) всегда означает конец URL (интерпретируется одинаково для всех правил).
Вот несколько примеров:
Индексирования для отдельных типов файлов также можно избежать. Чтобы заблокировать файлы определенного типа (например, файлы .jpg), введите строку, действительную для всех поисковых систем. Disallow: /*.jpg$
Чтобы заблокировать доступ ко всем подкаталогам, начинающимся со слова secret, используйте файл robots.txt следующим образом: Disallow: / secret * /
Чтобы заблокировать индексирование всех URL-адресов со знаком вопроса (?), Используйте: Disallow: / *?
Используйте $ для блокировки адресов с указанными конечными символами. Следующая запись блокирует все файлы MS Word (.doc): Disallow: /*.doc$
Подстановочные знаки можно использовать в сочетании с оператором Allow . Напротив, чтобы разрешить много URL.
Пример настроек robots.txt:
User-agent: *
Disallow: /ajax
Disallow: /ajax/*
Disallow: /admin
Disallow: /login
Disallow: /logout
Disallow: /search
Disallow: /system
Disallow: /registration
Disallow: /users/*/edit
Disallow: /users/*/lost
Host: proitblog.ru
Sitemap: http://proitblog.ru/sitemap.xml