Делаем правильный robots.txt для joomla

Делаем правильный robots.txt для joomla

Сегодня речь пойдет о том, как правильно настроить файл robots.txt для сайта на движке Joomla. Этот файл служит для запрета индексации поисковыми системами некоторых разделов Вашего сайта.

Необходимо быть очень внимательным, чтобы запретить к индексации только то, что необходимо, иначе последствия могут быть весьма печальными.

Итак, начнём!

Сам файл robots.txt находится в корневой папке сайта, если его по каким то причинам там нету, его следует создать. Это обычный текстовый файл, в котором должны быть прописаны директории сайта, куда можно «смотреть» поисковику, а куда нельзя. Это важно для внутренней оптимизации сайта. Вы должны дать понять поисковому роботу какой контент надо заносить в поисковую выдачу, а какой «мусор» лучше не трогать.

Открываем Ваш robots.txt, напоминаю, он находится в корневой папке, чаще всего это «public_html», для его просмотра и редактирования, можно воспользоваться любым текстовым редактором:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Разберём всё по порядку. В начале файла robots.txt прописана директива «User-agent: *», эта универсальное правило для всех поисковых машин, об её универсальности говорит звёздочка, после двоеточия. Для того чтобы задать сами правила индексации для какого то отдельного поисковика следует прописать имя поискового бота. В таблице ниже, приведены имена User-Agent основных поисковых роботов:

ЯндексYandex
GoogleGooglebot
РамблерStackRambler
Мэйл.руMail.Ru

Например: Для Яндекса, первая строчка будет выглядеть так — «User-agent: Yandex». Полагаю, тут все понятно.

Смотрим ниже, там прописаны все стандартные директории, которые запрещены для индексации. В принципе всё правильно, только я удалил строчку «Disallow: /images/», это запрет на индексацию папки с картинками. К примеру, я хочу, чтобы картинки, тоже индексировались, так как с них идёт хороший трафик.

Дальше хочу добавить в этот «список» несколько страничек которые никак не должны быть в индексе. Это страницы печати, почты, rss, поиска, регистрации. Выглядит это так:

Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*

В результате, всех моих действий получился вот такой хороший robots.txt, который универсален для всех поисковых роботов. Незабываем добавить строчку Host и Sitemap, так поисковым роботам проще проиндексировать весь сайт.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*
Host: https://site.ru/
Sitemap: https://site.ru/sitemap.xml

Ну вот в принципе и всё.

Опубликовано: 23:39-03.04.2016

1 Комментарий —  Развернуть


Ответить на комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *