Делаем правильный robots.txt для joomla

Здравствуйте, дорогие читатели моего seo блога! Сегодня я хочу рассказать Вам, как правильно настроить файл robots.txt для сайта на движке Joomla. Этот файл служит для запрета индексации поисковыми системами некоторых разделов Вашего сайта.

Итак, начнём! Сам файл robots.txt находится в корневой папке сайта, если его по каким то причинам там нету, его следует создать. Это простой текстовый файл, в котором должны быть прописаны директории сайта, куда можно «смотреть» поисковику, а куда нельзя. Это важно для внутренней оптимизации сайта. Вы должны дать понять поисковому роботу какой контент надо заносить в поисковую выдачу, а какой «мусор» лучше не трогать.

Открываем Ваш robots ( напоминаю, он находится в корневой папке, чаще всего это «public_html»), для его просмотра, лучше всего воспользоваться редактором «Notepad++». Что мы видим:

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Разберём всё по порядку. В первой строчке «User-agent: *», эта директива универсальна для всех поисковых машин, об её универсальности говорит звёздочка, после двоеточия. Для того чтобы задать «правила» индексации для какого то отдельного поисковика следует прописать имя поискового бота. Ниже приведу имена основных поисковых роботов:

Яндекс- Yandex

Google- Googlebot

Рамблер- StackRambler

Мэйл.ру- Mail.Ru

Например: Для Яндекса, первая строчка будет выглядеть так – « User-agent: Yandex ». Я думаю смысл понятен.

Смотрим ниже, там прописаны все стандартные директории, которые запрещены для индексации. В принципе всё правильно, только я удалил строчку « Disallow: /images/ », это запрет на индексацию папки с картинками. Я хочу. чтобы картинки, тоже индексировались, т.к. с них идёт хороший трафик.

Дальше хочу добавить в этот «список» несколько страничек которые никак не должны быть в индексе. Это страницы печати, почты, rss, поиска, регистрации. Выглядит это так:

Disallow: /*mailto*

Disallow: /*start*

Disallow: /*print*

Disallow: /*feed*

Disallow: /*search*

Disallow: /*users*

В результате, всех моих действий получился вот такой хороший robots.txt, который универсален для всех поисковых роботов.

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /cli/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*mailto*

Disallow: /*start*

Disallow: /*print*

Disallow: /*feed*

Disallow: /*search*

Disallow: /*users*

Так же Вы можете скачать уже готовый файл robots, который работает на этом блоге.

Loading Likes...

МАТЕРИАЛЫ ПО ТЕМЕ

Один комментарий  —  Развернуть

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *