Вопрос: Как использовать robots.txt, чтобы запретить сканирование только для моих поддоменов?


Если я хочу, чтобы мой основной сайт работал в поисковых системах, но ни один из поддоменов не был, должен ли я просто поместить «запретить все» robots.txt в каталоги субдоменов? Если я это сделаю, будет ли мой основной домен сканироваться?


7
2017-08-31 19:23


Источник




Ответы:


Файл robots.txt должен находиться в каталоге верхнего уровня вашего веб-сервера. Если ваш основной домен и каждый поддомен находятся на разных vhosts, вы можете поместить его в каталог верхнего уровня для каждого поддомена и включить что-то вроде

User-agent: *
Disallow: /

Где находится файл robots.txt, зависит от доступа к определенному сайту. Учитывая URL-адрес, подобный

 http://example.com/somewhere/index.html

искатель отбросит все, что находится справа от имени домена, и добавит файл robots.txt

http://example.com/robots.txt  

Поэтому вам нужно поместить файл robots.txt в каталог, на который указывает директива DocumentRoot для example.com, и запретить доступ к / где-то вам нужно

User-agent: *
Disallow: /somewhere

Если у вас есть поддомены, и вы получаете к ним доступ

http://subdomain.example.com

и вы хотите запретить доступ ко всему субдомену, тогда вам нужно поместить ваш файл robots.txt в каталог, на который указывает директива DocumentRoot для субдомена и т. д.


9
2017-08-31 19:28



Будет ли это работать? User-agent: *; Allow: *; Disallow: /subdomains? - tkbx
Если вы получаете доступ к своим поддоменам как example.com/subdomains/subdomain1 и т. д., тогда вам не нужно разрешать, так как все, что не исключено, разрешено по умолчанию. - Iain
Хорошо, поэтому на сервере у меня есть файлы root и / Subdomains с их собственным index.html. Я не уверен, насколько это распространено, но в службе, которую я использую (1 и 1), фактический субдомен (sub.domain.com) может быть связан с папкой. У меня может быть ссылка sub.domain.com на / Subdomains / SomeSite (и /Subdomains/SomeSite/index.html оттуда). Не разрешишь ли / Субдомены работать в этом случае? - tkbx
Это все о том, как вы обращаетесь к своему основному домену и его субдоменам. Взгляни на robotstxt.org, - Iain


Вы должны поместить его в свой корневой каталог, иначе он не будет найден.


2
2017-08-31 19:25





  1. Вам нужно поместить файл robots.txt в корневой каталог

  2. Правила Disallow не domian / sub-domain specific и будет применяться ко всем URL-адресам

Например: Предположим, вы используете sub.mydomain.com и mydomain.com (оба связаны с одной и той же папкой ftp). Для этой настройки, если вы установите правило Disallow: / admin /, то все URL-адреса sub.mydomain.com/admin/ и в mydomain.com/admin/ будут отменены.

Но если sub.mydomain.com фактически не связывает другой сайт (а также другую папку ftp), тогда вам нужно будет создать еще один файл robots.txt и поместить его в корень этой папки.


2
2017-09-06 10:26