Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index., для основного домена/сайта, это папка public_html), в нем записываются специальные инструкции для поисковых роботов.
Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое
Если файла robotx.txt нет в каталоге вашего сайта, тогда вы можете его создать.
Чтобы запретить индексирование сайта через файл robots.txt, используются 2 директивы: User-agent и Disallow.
- User-agent: УКАЗАТЬ_ПОИСКОВОГО_БОТА
- Disallow: / # будет запрещено индексирование всего сайта
- Disallow: /page/ # будет запрещено индексирование директории /page/
Примеры:
Запретить индексацию вашего сайта ботом MSNbot
User-agent: MSNBot
Disallow: /
Запретить индексацию вашего сайта ботом Yahoo
User-agent: Slurp
Disallow: /
Запретить индексацию вашего сайта ботом Yandex
User-agent: Yandex
Disallow: /
Запретить индексацию вашего сайта ботом Google
User-agent: Googlebot
Disallow: /
Запретить индексацию вашего сайта для всех поисковиков
User-agent: *
Disallow: /
Запрет индексации папок cgi-bin и images для всех поисковиков
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Теперь как разрешить индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):
User-agent: *
Disallow:
Пример:
Разрешить индексировать сайт только ботам Yandex, Google, Rambler с задержкой 4сек между опросами страниц.
User-agent: *
Disallow: /
User-agent: Yandex
Crawl-delay: 4
Disallow:
User-agent: Googlebot
Crawl-delay: 4
Disallow:
User-agent: StackRambler
Crawl-delay: 4
Disallow: