Протоколы Internet


Язык HTML - часть 130


user-agent: * # applies to all robots

disallow: / # disallow indexing of all pages

Робот просто будет искать "/robots.txt" uri на вашем сайте, где сайт определен как HTTP-сервер, работающий на определенной ЭВМ с заданным номером порта. Ниже приведены примеры места положения robots.txt:

Сайт URI

URI для robots.txt

http://www.w3.org/

http://www.w3.org/robots.txt

http://www.w3.org:80/

http://www.w3.org:80/robots.txt

http://www.w3.org:1234/

http://www.w3.org:1234/robots.txt

http://w3.org/

http://w3.org/robots.txt

Должен быть только один файл "/robots.txt" на сайт. В частности, не следует помещать файл "robots.txt" в пользовательские каталоги, так как робот туда не заглядывает. Если вы хотите, чтобы пользователи создали свои собственные "robots.txt", вы должны их объединить в один общий файл "/robots.txt". Если вы не хотите это делать, пользователи могут вместо этого использовать robots meta tag.

Некоторые советы: URI чувствительны к набору строчными или прописными буквами, а строка "/robots.txt" должна быть набрана строчными буквами. Пустые строки не допустимы.

Должен быть только одно поле "user-agent" на рекорд. Робот должен либерально интерпретировать это поле. Если значение равно "*", рекорд описывает политику доступа любого робота по умолчанию (робот не соответствует ни одному другому рекорду). Не допускается более одного такого рекорда в файле "/robots.txt".

Поле "disallow" специфицирует URI, который не должен посещаться. Это может быть полный проход, частичный проход, любой URI, который начинается с этой величины, не будет доступен. Например,

disallow: /help запрещает как /help.html так и /help/index.html, в то время как

disallow: /help/ запрещает посещение /help/index.html, но позволяет /help.html.

Пустое значение для "disallow", указывает, что все uri доступны. Хотя бы одно поле "disallow" должно присутствовать в файле robots.txt.




Начало  Назад  Вперед



Книжный магазин