Блокировка сайта
Блокирование частей сайта для поисковых систем
На первый взгляд может показаться нелогичным желание ограничить доступ поисковых систем к какой-либо части сайта. Возможно, вы прилагаете большие усилия, чтобы ваш сайт попал в списки как можно большего числа поисковых систем
Однако попробуйте оценить следующие аргументы: может быть, вы хотите точно управлять тем, как посетитель находит ваш сайт. Скажем, вы бы предпочли, чтобы посетители заходили на начальную страницу, а не на страницы, находящиеся на три уровня глубже в структуре сайта, Или, может быть, вы не хотите, чтобы посетители заходили вначале на страницу, которая выполняет функцию всплывающего окна, где может отсутствовать полный набор средств-навигации.
Чем больше вы размышляете на эту тему, тем больше убеждаетесь, что ограничение доступа поисковых систем к некоторым областям сайта вполне оправдано.
Быстрый доступ
Совет:
Некоторые Web-дизайнеры, отдающие предпочтение дешевым решениям, а не хорошим, полагают, что методы, излагаемые на этой страеице, предоставляют им надежный способ защиты важных сведений на их сайтах. Эти Web-дизайнеры поступят правильно, если полностью пропустят данную главу. Лучшее решение по безопасности-не держать конфиденциальную информацию на Web-сервере, и точка. Если вы не можете себе этого позволить, следует исследовать и реализовать действующие протоколы безопасности и авторизации, например, каталоги, защищаемые паролем.
Существует относительно простой и надежный способ передачи своих предпочтений по индексированию роботам-программам, которые поисковые системы посылают для каталогизации вашего сайта.
Вы добавляете специальный текстовый файл с именем robots.txt на верхний уровень своего удаленного (remote) сайта прямо внутрь удаленной корневой пайки. Файл robots.txt предписывает посещающим поисковым механизмам игнорировать специальные каталоги или файлы, которые в нем перечисляются.
Совет:
Удостоверьтесь, что вы используете текстовый редактор при создании файла robot.txt для своего сайта, и сохраните результат с расширением .txt. Вы сделаете неправильно, если создадите HTML-файл, а затем измените его расширение на . txt.
Здесь есть загвоздка: чтобы описанная процедура работала, роботы должны удовлетворять требованиям стандарта исключения роботов (Robots Exclusion Standard). Стандарт исключения роботов попросту утверждает, что робот должен подчиняться инструкциям, приводимым в файле robot.txt.
Однако этот стандарт не является законом. Он больше похож на правила хорошего поведения. Разработчики роботов для поисковых систем не обязаны программировать свои творения в соответствии со стандартами, и действительно, существуют роботы-ренегаты, бешено носящиеся по Интернету.
Тем не менее, роботы всех основных поисковых систем работают в соответствии с рекомендациями. Стандарт исключений для роботов был принят в 1994 году и с тех пор не менялся. Стандарт описывает общие принципы написания robots.txt. Вкратце – при заходе на сайт робот запрашивает файл robots.txt, чтобы посмотреть, какие разделы и документы на сайте запрещены для него. Важно помнить, что стандарт является необязательным, и его придерживаются только «вежливые и культурные» роботы. Врядли вы сможете при помощи него сможете запретить, например, доступ для роботов ворующих у вас контент.
Простой файл robot.txt выглядит подобно следующему примеру:
- User-agent: *
- Disallow: /popups/
- Disallow: popup.htm
- Disallow: /images/
- Disallow: /js/
- Disallow: /css/
Строки Disallow сообщают роботу, какие каталоги или файлы не следует посещать. В предыдущем примере каталоги popups, images, js и css заблокированы, также, как и файл popup.htm.
Строка User-agent показывает, в отношении каких роботов действуют строки Disallow. Задание звездочки (*) в качестве значения User-agent означает, что инструкции Disallow действуют для всех роботов. Можно также указать отдельных роботов и задать для каждого из них разные уровни доступа:
- User-agent: googlebot
- Disallow: /popups/
- Disallow: popup.htm
- User-agent: Roverdog
- Disallow: /popups/
- Disallow: popup.htm
- Disallow: /images/
- Disallow: /js/
- Disallow: /css/
В этом скрипте робот googlebot поисковой системы googleне должен просматривать каталог popups и файл popup.htm, тогда как робот Roverdog кроме папки popups и файлу popup.htm не должен заходить в каталоги images, js и css.
Между прочим, значения в строках Disallow являются относительными путями, указываемыми относительно корня. Таким образом, если вы хотите скрыть подпапку, а не папку верхнего уровня, убедитесь, что указан полный путь к подпапке:
- User-agent: Roverdog.
- Disallow: /swf/sourcefiles/
Если требуется скрыть абсолютно все (в этом случае от всех роботов), используйте следующую запись:
- User-agent: *
- Disallow: /
Совет:
Знак "звездочка" в файле robots.txt не является подстановочным знаком. Поэтому вы не можете записать, например,Disallow: *.gif ,чтобы запретить поисковым системам сканировать все файлы изображений с расширением GIF — для этого следует поместить все GIF-файлы в папку и затем запретить доступ к этой папке. Звездочка работает только в строке User-agent и только как сокращение, обозначающее всех роботов.
В следующем примере показано, как полностью запретить доступ для робота google и разрешить полный доступ для всех других роботов:
- User-agent: googlebot
- Disallow: /
Если вы хотите сделать доступным все для всех роботов, используйте такую запись:
- User-agent: *
- Disallow:
А если вы хотите разрешить доступ только одному роботу (в данном примере, роботу поисковой системы google), воспользуйтесь текстом:
- User-agent: googlebot
- Disallow:
- User-agent: *
- Disallow: /
Теперь вернемся к примеру в начале страницы, где вы хотели попробовать заставить новых посетителей заходить на сайт через начальную страницу. Допустим, ваш сайт содержит пять каталогов верхнего уровня: products (продукты), services (услуги), aboutus (о нас), images (изображения) и apps (приложения) наряду с HTML-файлом contact.htm. Ваш файл robots.txt выглядит следующим образом:
- User-agent: *
- Disallow: /products/
- Disallow: /services/
- Disallow: /aboutus/
- Disallow: /images/
- Disallow: /apps/
- Disallow: contact.htm
Поместите этот файл в каталог верхнего уровня удаленного (remote) сайта, и поисковые системы будут индексировать только вашу домашнюю страницу (index.htm).
Совет:
Дополнительные сведения о файле robots.txt, а также имена различных роботов, не упомянутых здесь, смотрите на сайте http://robotstxt.org.ru/
Живая связь по всем вопросам тел. 8- 919- 633- 05-13
