Блокировка сайта

Блокирование частей сайта для поисковых систем

На первый взгляд может показаться нелогичным желание ограничить доступ поисковых систем к какой-либо части сайта. Возможно, вы прилагаете большие усилия, чтобы ваш сайт попал в списки как можно большего числа поисковых систем

робот

Однако попробуйте оценить следующие аргументы: может быть, вы хотите точно управлять тем, как посетитель находит ваш сайт. Скажем, вы бы предпочли, чтобы посетители заходили на начальную страницу, а не на страницы, находящиеся на три уровня глубже в структуре сайта, Или, может быть, вы не хотите, чтобы посетители заходили вначале на страницу, которая выполняет функцию всплывающего окна, где может отсутствовать полный набор средств-навигации.

Чем больше вы размышляете на эту тему, тем больше убеждаетесь, что ограничение доступа поисковых систем к некоторым областям сайта вполне оправдано.

Совет:

Некоторые Web-дизайнеры, отдающие предпочтение дешевым решениям, а не хорошим, полагают, что методы, излагаемые на этой страеице, предоставляют им надежный способ защиты важных сведений на их сайтах. Эти Web-дизайнеры поступят правильно, если полностью пропустят данную главу. Лучшее решение по безопасности-не держать конфиденциальную информацию на Web-сервере, и точка. Если вы не можете себе этого позволить, следует исследовать и реализовать действующие протоколы безопасности и авторизации, например, каталоги, защищаемые паролем.

Существует относительно простой и надежный способ передачи своих предпочтений по индексированию роботам-программам, которые поисковые системы посылают для каталогизации вашего сайта.

Вы добавляете специальный текстовый файл с именем robots.txt на верхний уровень своего удаленного (remote) сайта прямо внутрь удаленной корневой пайки. Файл robots.txt предписывает посещающим поисковым механизмам игнорировать специальные каталоги или файлы, которые в нем перечисляются.

Совет:

Удостоверьтесь, что вы используете текстовый редактор при создании файла robot.txt для своего сайта, и сохраните результат с расширением .txt. Вы сделаете неправильно, если создадите HTML-файл, а затем измените его расширение на . txt.

Здесь есть загвоздка: чтобы описанная процедура работала, роботы должны удовлетворять требованиям стандарта исключения роботов (Robots Exclusion Standard). Стандарт исключения роботов попросту утверждает, что робот должен подчиняться инструкциям, приводимым в файле robot.txt.

Однако этот стандарт не является законом. Он больше похож на правила хорошего поведения. Разработчики роботов для поисковых систем не обязаны программировать свои творения в соответствии со стандартами, и действительно, существуют роботы-ренегаты, бешено носящиеся по Интернету.

Тем не менее, роботы всех основных поисковых систем работают в соответствии с рекомендациями. Стандарт исключений для роботов был принят в 1994 году и с тех пор не менялся. Стандарт описывает общие принципы написания robots.txt. Вкратце – при заходе на сайт робот запрашивает файл robots.txt, чтобы посмотреть, какие разделы и документы на сайте запрещены для него. Важно помнить, что стандарт является необязательным, и его придерживаются только «вежливые и культурные» роботы. Врядли вы сможете при помощи него сможете запретить, например, доступ для роботов ворующих у вас контент.

Простой файл robot.txt выглядит подобно следующему примеру:

  • User-agent: *
  • Disallow: /popups/
  • Disallow: popup.htm
  • Disallow: /images/
  • Disallow: /js/
  • Disallow: /css/

Строки Disallow сообщают роботу, какие каталоги или файлы не следует посещать. В предыдущем примере каталоги popups, images, js и css заблокированы, также, как и файл popup.htm.

Строка User-agent показывает, в отношении каких роботов действуют строки Disallow. Задание звездочки (*) в качестве значения User-agent означает, что инструкции Disallow действуют для всех роботов. Можно также указать отдельных роботов и задать для каждого из них разные уровни доступа:

  • User-agent: googlebot
  • Disallow: /popups/
  • Disallow: popup.htm
  • User-agent: Roverdog
  • Disallow: /popups/
  • Disallow: popup.htm
  • Disallow: /images/
  • Disallow: /js/
  • Disallow: /css/

В этом скрипте робот googlebot поисковой системы googleне должен просматривать каталог popups и файл popup.htm, тогда как робот Roverdog кроме папки popups и файлу popup.htm не должен заходить в каталоги images, js и css.

Между прочим, значения в строках Disallow являются относительными путями, указываемыми относительно корня. Таким образом, если вы хотите скрыть подпапку, а не папку верхнего уровня, убедитесь, что указан полный путь к подпапке:

  • User-agent: Roverdog.
  • Disallow: /swf/sourcefiles/

Если требуется скрыть абсолютно все (в этом случае от всех роботов), используйте следующую запись:

  • User-agent: *
  • Disallow: /

Совет:

Знак "звездочка" в файле robots.txt не является подстановочным знаком. Поэтому вы не можете записать, например,Disallow: *.gif ,чтобы запретить поисковым системам сканировать все файлы изображений с расширением GIF — для этого следует поместить все GIF-файлы в папку и затем запретить доступ к этой папке. Звездочка работает только в строке User-agent и только как сокращение, обозначающее всех роботов.

В следующем примере показано, как полностью запретить доступ для робота google и разрешить полный доступ для всех других роботов:

  • User-agent: googlebot
  • Disallow: /

Если вы хотите сделать доступным все для всех роботов, используйте такую запись:

  • User-agent: *
  • Disallow:

А если вы хотите разрешить доступ только одному роботу (в данном примере, роботу поисковой системы google), воспользуйтесь текстом:

  • User-agent: googlebot
  • Disallow:
  • User-agent: *
  • Disallow: /

Теперь вернемся к примеру в начале страницы, где вы хотели попробовать заставить новых посетителей заходить на сайт через начальную страницу. Допустим, ваш сайт содержит пять каталогов верхнего уровня: products (продукты), services (услуги), aboutus (о нас), images (изображения) и apps (приложения) наряду с HTML-файлом contact.htm. Ваш файл robots.txt выглядит следующим образом:

  • User-agent: *
  • Disallow: /products/
  • Disallow: /services/
  • Disallow: /aboutus/
  • Disallow: /images/
  • Disallow: /apps/
  • Disallow: contact.htm

Поместите этот файл в каталог верхнего уровня удаленного (remote) сайта, и поисковые системы будут индексировать только вашу домашнюю страницу (index.htm).

Совет:

Дополнительные сведения о файле robots.txt, а также имена различных роботов, не упомянутых здесь, смотрите на сайте http://robotstxt.org.ru/

В меню быстрого доступа

Живая связь по всем вопросам тел. 8- 919- 633- 05-13  Телефон