Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index., для основного домена/сайта, это папка public_html), в нем записываются специальные инструкции для поисковых роботов.

Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое

Если файла robotx.txt нет в каталоге вашего сайта, тогда вы можете его создать.
Чтобы запретить индексирование сайта через файл robots.txt, используются 2 директивы: User-agent и Disallow.

  • User-agent: УКАЗАТЬ_ПОИСКОВОГО_БОТА
  • Disallow: / # будет запрещено индексирование всего сайта
  • Disallow: /page/ # будет запрещено индексирование директории /page/

Примеры:

Запретить индексацию вашего сайта ботом MSNbot

User-agent: MSNBot  
Disallow: /  

Запретить индексацию вашего сайта ботом Yahoo

User-agent: Slurp  
Disallow: /  

Запретить индексацию вашего сайта ботом Yandex

User-agent: Yandex  
Disallow: /  

Запретить индексацию вашего сайта ботом Google

User-agent: Googlebot  
Disallow: /  

Запретить индексацию вашего сайта для всех поисковиков

User-agent: *  
Disallow: /  

Запрет индексации папок cgi-bin и images для всех поисковиков

User-agent: *  
Disallow: /cgi-bin/  
Disallow: /images/  

Теперь как разрешить индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):

User-agent: *  
Disallow:  

Пример:

Разрешить индексировать сайт только ботам Yandex, Google, Rambler с задержкой 4сек между опросами страниц.

User-agent: *  
Disallow: /  

User-agent: Yandex  
Crawl-delay: 4  
Disallow:  

User-agent: Googlebot  
Crawl-delay: 4  
Disallow:  

User-agent: StackRambler  
Crawl-delay: 4  
Disallow:  
Обновлено 27 августа 2019 г.