Файл robots.txt имеет огромное значение для продвижения и развития вашего сайта, и очень важно правильно настроить этот файл. При отсутствии текстового файла robots.txt ваш сайт будет индексироваться поисковыми системами полностью со всеми взятыми файлами движка wordpress, различными папками и директориями, не предназначенных для индексирования. А также не исключена возможность дублирования контента (особенно для сайтов WordPress и Joomla), что не очень любят поисковики.
И для запрета индексации в таких случаях предназначен текстовый файл robots.txt. Судя по названию - файл для поисковых роботов. Мы ориентируемся в основном на Google и Яндекс роботы.
Если у вас нет файла robots.txt в корне вашего блога, необходимо его создать в редакторе Notepad++, - прописать название и расширение именно так, как написано. Через программу FileZilla соединяетесь по ftp протоколу с вашим сервером и закачиваете файл в корневую папку вашего сайта /public_html/robots.txt
У меня этот файл находится здесь http://wphello.ru/robots.txt. Для того, чтобы просмотреть файл robots.txt у этого блога и любого другого, достаточно добавить к адресу - robots.txt. Вот так это будет выглядеть - http://wphello.ru/robots.txt
На основе robots.txt разных сайтов можете создать свой файл robots.txt. Только следует учитывать, если строите сайт на wordpress, то и файл смотрите с таких сайтов, если на joomla - соответственно сайты смотрите на joomla. Чтобы не закрыть от индексации важные директории.

Правила написания файла robots.txt
В файле robots.txt обязательно указывается для какого поискового робота составлены директивы
Директива User-agent: * для всех роботов
Директива User-agent:Yandex для роботов Яндекс
Директива Allow - разрешает индексирование
Директива Disallow - запрещает индексирование
Директива Sitemap - указывает поисковикам путь до файла карты сайта.
Директива Host указывает какой из вариантов написания сайта является главным с www и без оного.Директиву Host понимает робот Яндекса, и следовательно ее пишем только для Yandex.
Файл robots.txt должен содержать хотя бы одну директиву Disallow после записи User-agent.
Пустой файл robots.txt разрешает индексирование всего сайта.

Список поисковых роботов известных поисковиков:

  • Google http://www.google.com Googlebot
  • Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
  • AOL http://www.aol.com Slurp
  • MSN http://www.msn.com MSNBot
  • Live http://www.live.com MSNBot
  • Ask http://www.ask.com Teoma
  • AltaVista http://www.altavista.com Scooter
  • Alexa http://www.alexa.com ia_archiver
  • Lycos http://www.lycos.com Lycos
  • Яндекс http://www.ya.ru Yandex
  • Рамблер http://www.rambler.ru StackRambler
  • Мэйл.ру http://mail.ru Mail.Ru
  • Aport http://www.aport.ru Aport

Примеры составления файлов robots.txt

1.Файл robots.txt разрешает всем поисковым роботам проводить индексацию всего сайта.Это задается пустой директивой Disallow.

User-agent: *
Disallow:

2.Файл robots.txt запрещает всем поисковикам проводить индексацию сайта. Устанавливает это директива Disallow с / в поле значения. Такой код стоит у меня на копии блога.

User-agent: *
Disallow: /

3.Файл robots.txt будет запрещать всем поисковикам проводить индексацию содержимого каталога /uploads/ (http://wphello.ru/uploads/ — путь к этому каталогу)

User-agent: *
Disallow: /uploads/

4.Файл robots.txt запрещает для индексации директорию uploads, а так же все файлы и директории, начинающиеся с символами uploads, т. е. файлы: uploads\2012\02\xxx.jpg:

b> User-agent: *
Disallow: /uploads

5.Для директив Allow - Disallow можно использовать символы '*' и '$', задавая определенные логические выражения. Символ '*' означает любую последовательность символов.
Файл robots.txt запрещает всем поисковикам индексацию файлов на сайте окончанием feed»:

User-agent: *
Disallow: */feed

6.Запрет для индексации файла wp-login.php

User-agent: *
Disallow: /wp-login.php

7.Файл robots.txt запрещает индексацию всех файлов, имеющих расширение .jpg

User-agent: *
Disallow: /*.jpg$

8.Файл robots.txt определяет главный сайт с www.Разрешает индексацию всего сайта.

User-agent: Yandex
Disallow:
Host: www.wphello.ru

9.6.Файл robots.txt определяет главный сайт без www. Разрешает индексацию всего сайта.

User-agent: Yandex
Disallow:
Host: wphello.ru

10. Путь к файлу sitemap.xml карты сайта

Sitemap: http://site.ru/sitemap.xml

Правильный robots.txt для блога на WordPress

Ниже пример файла robots.txt с закрытием от индексации ненужных директорий, так как при индексации поисковиками файлов, не относящихся к контенту , WordPress будет давать большую нагрузку на сервер, а нам не нужны проблемы с хостингом.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins 
Disallow: /wp-content/cache
Disallow: /wp-content/themes 
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /attachment/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /?s=
 
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /attachment/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /?s=
Host:wphello.ru
Sitemap: http://wphello.ru/sitemap.xml.gz
Sitemap: http://wphello.ru/sitemap.xml

Такой файл robots.txt на этом блоге
Теперь попробуем расшифровать, что мы здесь написали.

User-agent:* Сайт индексируется всеми поисковыми роботами
Disallow: /cgi-bin - запрещаем к индексации каталог cgi-bin (там находятся файлы движка)
Disallow: /wp-admin - запрещает индексацию wp-admin (файлы админки)
Disallow: /wp-includes - запрещает индексацию цз-includes (файлы движка)
Disallow: /wp-content/plugins - запрещает индексацию каталога с плагинами
Disallow: /wp-content/cache - запрет индексации каталога cashe (при использовании плагина кэширования)
Disallow: /wp-content/themes - запрещает индексацию каталога с темами wordpress
Disallow: /trackback - закрываем от индексации трекбеки
Disallow: */trackback - закрываем от индексации файлы, оканчивающиеся на trackback
Disallow: */*/trackback ---//---
Disallow: /attachment/ - запрещает от индексации страницы вложений attachmentnt (при добавлении картинок в wordpress для обзора изображений и галерей, если используете файлы вложения)
Disallow: */*/feed/*/ - запрещаем для индексации фиды и оканчивающиеся на feed файлы
Disallow: */feed---//---
Disallow: /?s= - запрещаем для индексации страницы поиска по сайту

Директиву Host прописываем только для робота Яндекса. Но так как если мы оставим обязательную директиву Disallow пустой, наш сайт будет проиндексирован со всем содержимым. Поэтому для робота Яндекса копируем все директивы Disallow.

Распространенные ошибки при составлении файла robots.txt.

Неправильный порядок расположения полей:
Не верно:

Disallow: /
User-agent: *

Верно:

User-agent: *
Disallow: /

Cинтаксические ошибки:
Отсутствие пустой строки:

Не верно:

User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:

Верно:

User-agent: Googlebot
Disallow: /User-agent: *
Disallow:

Ошибки в синтаксисе Disallow:

Disallow: * (приводит к запрету на индексацию всего сайта).

Поле User-Agent:

User-agent: (поле не должно быть пустым)

Поле Host:

Не верно:

Host: http://www.wphello.ru/ # (нельзя использовать протокол и слеш в конце)
Host: .wphello.ru # (любые ошибки в написании доменных имён не допустимы)
Host: 234.334.45.56 # (указан IP вместо адреса)

Верно:

Host: www.site.ru
или
Host: www.site.ru:8080
# - если ваш сайт доступен по какому-то другому порту (стандартный порт 80, если используется именно он, то его не указывают).

Не создавайте размер файла robots.txt больше, чем 256 килобайт.

Для защиты от дублирования контента можете поставить
Disallow://category
Disallow://arhives
Disallow://tag
Но я для этого воспользовался плагином All in Seo Pack и закрыл в нем от индексации Архивы и Тегиrobots txt wordpress

Проверка работы robots.txt в панелях Яндекс Вебмастер и Google Вебмастер

Вы можете проверить работу своего файла robots.txt в Яндекс Вебмастер и Google Вебмастер. Для Google Вебмастер необходимо добавить сайт в панель вебмастера.
В яндексе процесс проверки файла robots.txtпример robots проверка
После проверки мой robots.txt выглядит таксоздание robots txt
После проверки в Google Вебмастер вот такая картина
проверка Robots
И еще про пример attachment файл вложения - attachment wordpress
Попробуйте на своем блоге нажать на картинку - у вас выйдет страница attachment с изображением. Вначале у меня также было, мало того, страницы attachment начали индексироваться, что мне было совес не нужно. Чтобы такого не было, просто не используете ссылки с миниатюр и файлы с attachment не будут создаваться.