Правильный robots.txt для сайта - рекомендации и конкретный пример

Перед тем как внести изменения в файл robot.txt, думаю, будет не лишним рассказать, что это за файл и для чего он нужен. Те, кто уже знаком с данным файлом первую часть текста могут пропустить.

Robots.txt что это за файл и для чего он нужен

Это обычный текстовый файл, который нужен исключительно для поисковых систем, именно он служит для указания (или если хотите рекомендации) поисковым роботам, что и как индексировать. От правильно составленного файла robot.txt зависит многое, с его помощью можно закрыть сайт от поисковых роботов или наоборот, разрешить обход только определенных разделов сайта. Поэтому грамотное его составление является одной из приоритетных задач в SEO оптимизации сайта.

Для того чтобы правильно отредактировать файл robots.txt сначала необходимо определиться с его расположением. Для любого сайта, в том числе, созданном в CMS Joomla 3, данный файл находится в корневой директории (папке) сайта. После установки Joomla 3 этот файл уже присутствует, но его содержание далеко от идеала.

Синтаксис файла robots.txt

В Joomla 3 файл robots.txt в базовом варианте содержит только самое основное, его содержимое примерно такое:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

В самом начале файла может содержаться еще текст, но он, скажем так, закомментирован символом «#». Проще говоря, строка, вначале которой содержится символ «#» не учитывается поисковыми роботами и для уменьшения размера файла их можно смело удалять. Таким образом, базовый файл robot.txt будет иметь именно указанное выше содержание. Давайте разберем каждую строку.

Первая строка содержит директиву User-agent, в качестве параметров которой выступает имя робота, который будет индексировать сайт. Таким образом, следующие за ней директивы будут обрабатываться только указанным роботом. Параметров может быть множество, но давайте рассмотрит только те, которые нужны именно нам:

  • User-agent: * #Данный параметр со значением "*" говорит, что следующий за данной строкой текст будет содержать информацию для всех роботов без исключения.

У данного параметра существуют и другие значения, самые распространенные из них это робот Яндекса и Гугла:

  • User-agent: Yandex #как понятно из названия параметр предназначен для роботов Яндекса, причем для всех роботов, которых у Яндекса больше 10 штук, рассматривать каждый по отдельности не вижу смысла.
  • User-agent: Googlebot #а это основной индексирующий робот Гугла.

Стоит отметить, если вы не указали директиву User-agent, то роботы будут думать, что им разрешен обход всего сайта, то есть доступ не ограничен. Так что не стоит ею пренебрегать.

Следующая директива Disallow, она необходима, для запрета поисковым роботам индексировать определенные разделы, она играет очень важную роль, поскольку Joomla славится созданием дублей страниц. 

На этом директивы в базовом файле robots.txt закончились, но их гораздо больше чем две. Все описывать не буду, напишу только то, что действительно нужно для правильной индексации сайтов на Joomla. 

Составляем правильный файл robots.txt для Joomla 3

Избавлю Вас от лишнего текста и сразу приведу пример моего файла robots.txt, а к строчкам допишу комментарии:

User-agent: * # указываем что следующие директивы предназначены для всех роботов без исключения
Host: joom4all.ru #Директива указывает на главное зеркало сайта, по рекомендациям Яндекса её желательно размещать после директив Allow и Disallow
Disallow: /administrator
Disallow: /component/slogin/* #запрет обхода левых страниц создаваемых компонентом авторизации Slogin (если такого компонента нет, то директиву убираем)
Disallow: /component/jcomments/ #Запрещаем роботам скачивать страницы создаваемые компонентом JComments (убираем если не используется)
Disallow: /component/users #Таким же образом запрещаем обход других левых страниц
Disallow: /bin/ #Запрет обхода системных папок
Disallow: /cache
Disallow: /cli
Disallow: /includes
Disallow: /installation
Disallow: /language
Disallow: /layouts
Disallow: /libraries
Disallow: /logs
Disallow: /tmp
Disallow: /components
Disallow: /modules
Disallow: /plugins
Disallow: /component/content
Disallow: /component/contact
Disallow: /404 #закрываем 404 ошибку от глаз робота
Disallow: /index.php? #урлы с параметрами, таких страниц Joomla может создать великое множество, они не должны попасть в индекс
Disallow: /*? #урлы с вопросами
Disallow: /*% #урлы с процентами
Disallow: /*& #урлы со знаком &
Disallow: /index.php #убираем дубли, их так же быть не должно
Disallow: /index2.php #снова дубли
Allow: /*.js* #Данная директива разрешает роботам индексировать файлы с указанными расширениями.
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*
Allow: /index.php?option=com_jmap&view=sitemap&format=xml #Разрешаем обход карты сайта, в противном случае она будет под запретом.
#Включаем карту сайта
Sitemap: http://joom4all.ru/index.php?option=com_jmap&view=sitemap&format=xml #Данная директива предназначена для указания работу места хранения карты сайта в xml формате

Вот примерно такой файл robot.txt используется на данном сайте, в нем указаны как разрешающие, так и запрещающие директивы, указано главное зеркало сайта, а также путь до карты сайта. Разумеется, для каждого сайта все индивидуально и директив может быть гораздо больше. Но на данном примере можно понять основные принципы работы с файлом «робот тхт» и в дальнейшем раздавать запреты либо разрешения на определенные страницы уже конкретно под ваш сайт.

Хочу добавить, что вопреки рекомендациям Яндекса о том, что директиву Host лучше располагать после директив Disallow и Allow я все же разместил её почти в самом верху. А сделал я это после того как после очередного обхода сайта роботом Яндекс сообщил мне о том, что не может найти данную директиву. Был ли это временный сбой, или что-то еще я проверять не стал и вернул данную директиву в самый верх.

Обратите внимание на последнюю директиву, имя которой Sitemap, она необходима для указания поисковому роботу на место расположения карты сайта, это очень важный момент. Что такое файл Sitemap и какова его роль в продвижение сайта можно почитать в этой статье.

После того как файл отредактирован самое время проверить его в действии. Для этого можно воспользоваться следующими сервисами:

Яндекс.Вебмастер

Google Search Console

Добавить комментарий