Что нужно учитывать при создании хорошего файла robots.txt?

1 Ответы


  • При создании файла robots.txt важно помнить, что он должен быть простым. Этот файл должен быть удобочитаемым человеком, поэтому, если у вас возникнут проблемы с его чтением, значит, вы где-то потерялись.

    Основная цель файла - общаться с веб-пауками (или ботами, как их обычно называют), URL-адреса которых вы не хотите, чтобы они просматривали. Могут быть боты, которые вам не нужны, поэтому вы можете дать указание конкретным пользовательским агентам вести себя по-другому. Однако будьте осторожны, когда начинаете создавать разные наборы правил для разных пользовательских агентов, поскольку они могут интерпретировать файл по-разному.

    Это веб-этикет, когда боты читают файл robots.txt и подчиняются ему, но они не обязательно делают это - случайно или намеренно. Вы должны убедиться, что ваш веб-сервер по-прежнему корректно обрабатывает запросы ботов к страницам, которые вы не хотите, чтобы они посещали. В конце концов, вы также можете рассматривать robots.txt как отправную точку для злоумышленников, которые попытаются атаковать ваш сайт, отправляя запросы на те URL-адреса, которые вы не хотите видеть в поисковом индексе.

    Вы также можете обнаружить, что некоторые из ваших запрещенных ботами URL-адресов появляются в поисковых индексах, если эти URL-адреса были связаны с другими веб-сайтами. Если вы укажете эти URL-адреса в своем файле robots.txt, это поможет, но это не гарантия того, что они не будут просканированы или проиндексированы.

    Еще одна полезная информация, которую следует поместить в robots.txt, - это расположение вашей карты сайта (или индекса карты сайта, если вам нужно иметь много карт сайта).

    Google, одна из самых важных поисковых компаний с обширным опытом работы со сканерами, оказывает большую помощь веб-мастерам. В качестве отправной точки для использования robots.txt прочтите следующее: Блокируйте или удаляйте страницы с помощью файла robots.txt.

Напишите свой ответ

Ваш ответ появится после модерации