Я иногда начал встречать такой казус, что люди на своем сайте даже не добавляют файл robots.txt. И я удивляюсь, что сложного найти и прописать стандартный роботс для своего сайта? Или лень, или не знают об этом.
Для чего собственно нужен robots.txt? Да элементарно, чтобы ваш сайт поисковик лучше загружал. Роботсом мы закрываем все лишние директории сайта, которые не нужны для робота или мы не хотим, чтобы робот их видел.
Прежде чем читать далее посмотрите данное видео, чтобы осталось меньше вопросов и мы могли следовать дальше.
Я пропишу стандартные robots.txt для основных cms систем. Запишите их, это своего рода шаблон, который на крайний случай может вставляться даже без изменений.
robots.txt для WordPress:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
robots.txt для DataLife Engine (DLE):
User-agent: *
Disallow: /engine/
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /admin.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*page
Disallow: /page/
Disallow: /tags/
robots.txt для Joomla:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/*
Disallow: /component/search/
Disallow: /component/content/
Disallow: /images/ — эту строчку добавлять если не нужен индекс картинок
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Важно файл robots.txt закидывать только в основную папку сайта через фтп доступ. Создавать обычный блокнот, туда вписывать все что нужно и загружать под указанным именем. Помните что «Robots» — это уже ошибка. Только с маленькой буквы.
Еще нужно прописывать в роботс такие моменты Host:site.ru или Host:www.site.ru — так мы указываем основное зеркало сайта.
А также Sitemap: «Ссылка на карту сайта» — если есть карта сайта, то полезно указать в роботсе.
красавица
Файл robots.txt для Яндекса должен содержать обязательную директиву host. Это позволит избежать проблем с индексированием зеркала ресурса или иных дублей его страниц.