автор: Андрей Зяблицев
НЕСКОЛЬКО СЛОВ О ФАЙЛЕ 'ROBOTS.TXT'
И МЕТА-ТЭГЕ 'ROBOTS'.
16. 06. 2001
Здесь я даю лишь обзорную информацию, а подробности и информацию о последних изменениях вы можете найти сайтах авторов (см. ниже).
robots.txt
Назначение файла robots.txt:
Этот файл предназначен для указания исключений для поисковых систем. Т.е. Вы можете указать файлы и/или каталоги, которые индексировать не надо. Например, это могут быть результаты работы CGI-скиптов, сводка о погоде, и пр.
Как ни странно, если такого файла на вашем сервере нет, то поисковые роботы вобще ничего не индексируют!
Файл robots.txt должен находиться в корневом каталоге веб сервера. Обычно это public_html, html, www.
Формат:
Имеется два ключевых слова, User-Agent и Disallow.
User-Agent — определяет имена роботов и Disallow — файлы и каталоги.
В простейшем случае robots.txt может быть таким:
User-Agent: *
Disallow:Здесь в качестве имени указана звездочка, что равнозначно любому имени.
Строка Disallow: пуста, это означает что все файлы, подкаталоги и файлы в подкаталогах могут быть проиндексированы.
·Файл может содерать несколько строк User-Agent.- Следом за каждой из таких строк должна следовать одна или несколько строк Disallow.
- Имена роботов, файлов и каталогов разделены пробельным символом (пробелы или табуляция).
- Комментарии начинаются со знака '
#'. - Знак '
*' означает любое имя агента. - Неполное имя файла интерпретируется как шаблон, например '/home' соответствует файлам '/home.html', '/home.lmth' каталогам '/home/', '/homeone/', и всем файлам и покаталогам в них.
Другой пример:
# агенту василий_пупкин запрещено индексировать все.
User-Agent: vasya_pupkin
Disallow: /
# агентам google rex yandex rambler запрещено
# индексировать все что лежит в каталогах
# /cgi-bin/ и /privat/ а также все файлы и
# каталоги, которые начинаются с '/not_for_robots',
# и еще /anekdoty/pro/robotov.htm
User-Agent: google rex yandex rambler
Disallow: /not_for_robots /cgi-bin/ /privat/
Disallow: /anekdoty/pro/robotov.htm
User-Agent: *
# всем остальным агентам
Disallow: # нет ограничений.
meta—robots
Иногда мы не имеем возможности создать файл 'robots.txt', в таких случаях
можно использовать тэг ROBOTS в заголовке html-файла.
Вот несколько примеров:
<meta name="robots" content="all">
<meta name="robots" content="none">
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
index — разрешает индексировать данный документ.follow — разешает следовать символическим ссылкам.all — разрешает индексировать данный документ и следовать ссылкам.соответственно
noindex, nofollow, none — запрещают.
·Имя тэга "ROBOTS" и значения нечуствительны к регистру.·Недопустимо использование конфликтующих значений, например:
<meta name="robots" content="noindex,nofollow,all,follow,noidex,all">
Источники:
Charles P.Kollar, John R.R. Leavitt, Michael Mauldin, Robot Exclusion Standard Revisited www.kollar.com/robots.html
Martijn Koster, Standard for robot exclusion info.webcrawler.com/mak/projects/robots/robots.html
Статьи по теме "оптимизация и продвижение веб-сайта в Интернет:"
- Роботы и сайты.
- Бизнес-предложение по продвижению коммерческого веб-сайта в Интернет.
- 5 самых распространенных ошибок в маркетинге поисковых систем.
- 5 советов по оптимизации контента для поисковых систем.
Внимание! Вся информация, размещенная на этом сайте в разделах "статьи" или "рассылки", является собственностью NunDesign. О полном или частичном использовании материалов вы можете узнать на странице "авторское право".
