Настройка robots.txt важна для последующего продвижения вашего сайта. В этом файле главным образом содержатся директивы закрывающие доступ поисковым роботам к служебным папкам и файлам на вашем хостинге. Поэтому некоторые владельцы небольших сайтов считают его наличие не обязательным. Но дело в том, что в роботс включается также информация о главном зеркале сайта и директива на карты сайту. А эти параметры важны для любого сайта.
Я не буду здесь приводить описание всех директив robots.txt, но основные, часто используемые в файле robots.txt опишу:
User-agent – директива, которая обращается ко всем либо к конкретному поисковому роботу. Может иметь следующие значения:
* — это значит, что директива обращается к роботам всех поисковых систем Yandex – обращение только к роботу Яндекса Googlebot – обращение только к роботу Google StackRambler – бот рамблера и т.д. всего более двух десятков Allow – разрешающая директива Disallow – запрещающая директива
Host – директива обращения к боту Яндекса с тем, чтобы указать какое из зеркал является главном. Полезная вещь – она подскажет Яндексу какой адрес сайта (с www или без www) вы считаете главным. Даже если у вас нет зеркал, это полезно сделать. Рекомендую главным считать адрес без www, к примеру, moysite.ru .
Этот пример будет очень полезен тем, кто в качестве движка своего сайта выбрал самую популярную бесплатную платформу wordpress (для Joomla также есть вариант). Большинству из нас не нужно прописывать в robots сложные пути для директив, нестандартные логические выражения в них, а требуется просто создать этот файл, закрыть от индексирования служебные папки, указать главное зеркало и прописать путь для карты сайты Sitemap. Поэтому ниже привожу тот вариант, который использую сам для сайта на wordpress:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /tag
Host: xxxxxxxxxxxx.ru
Sitemap: http://xxxxxxxxxx.ru/sitemap.xml.gz
Sitemap: http://xxxxxxxxxx.ru/sitemap.xml
Поясню, первый блок закрывает служебные файлы от индексирования всех поисковых роботов. Второй блок обращается только к российскому поисковику Яндекс.
В строке Host указываете доменное имя вашего сайта без www. В директивах Sitemap также вносите свой сайт без www.
Ниже образец файла закрывающего файла robots.txt для сайта на Joomla с директивами Host и Sitemap:
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: xxxxxxxxxx.ru
Sitemap: http://xxxxxxxxxx.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Откройте файл блокнот, перенесите в него подходящий для вас вариант содержимого и сохраните его на своем компьютере под именем robots.
Далее откройте файловый менеджер в аккаунте вашего хостинга и закачайте файл robots.txt в корень каталога вашего сайта. Это все.
Проверить правильную работу файла можно как в Яндекс.Вебмастер https://webmaster.yandex.ru/tools/robotstxt/ , так и в подобном сервисе Google https://www.google.com/webmasters/tools/siteoverview?hl=ru . Естественно, перед этим требуется зарегистрироваться в этих сервисах.
Главная цель, ради которой стоит потратить время на добавление закрывающего файла robots.txt это повышение посещаемости наших сайтов. Что в свою очередь должно положительно сказаться на их конверсии, успешности и высоких продажах наших товаров или услуг. Наличие файла роботс по-прежнему контролируется ботами большинства поисковых систем. А значит, вы провели свое время за чтением этой статьи с пользой.
Удачи!
Добавить комментарий