robots.txt

Germany.ru → Foren → Архив Досок→ Webdesign und Hosting

308

helper2008 свой человек16.01.13 09:51

NEW 16.01.13 09:51

Zuletzt geändert 16.01.13 09:56 (helper2008)

Нужно запретить все файлы вида http://site.ru/[0-9]*-[0-9]*.[a-z]
Что писать в сабже?
User-Agent: *
Disallow: [0-9]*-[0-9]*.[a-z]
Прокатит?
П.С. Можно вообще запретить все файлы вида site.ru/*.[a-k]
Как это прописать?

вполяне - жизнь в лесу

project33 коренной житель16.01.13 10:30

16.01.13 10:30

in Antwort helper2008 16.01.13 09:51

не прокатит. читай про регулярные выражения robots.txt здесь http://help.yandex.ru/webmaster/?id=996567#996572

Продвижение сайтов, реклама: https://www.pro33.net

Vovan(ator) старожил16.01.13 10:56

NEW 16.01.13 10:56

in Antwort helper2008 16.01.13 09:51

В ответ на:

Нужно запретить все файлы вида

Если я не ошибаюсь, то robots.txt это больше как лёгкое руководство для поведения ботов.
И есть некоторые, которые этих руководств не придерживаются.
Если хочешь действительно запретить, то по моему лучше через .htaccess

helper2008 свой человек16.01.13 15:57

NEW 16.01.13 15:57

in Antwort project33 16.01.13 10:30, Zuletzt geändert 16.01.13 15:58 (helper2008)

Спасибо за ссылку.
Значит:
User-Agent: *
Disallow: /*.a
Disallow: /*.b
Disallow: /*.c
Disallow: /*.d
Disallow: /*.e
Disallow: /*.f
Disallow: /*.h
Disallow: /*.i
должно сработать? Хотя бы для Яндекса.

вполяне - жизнь в лесу

helper2008 свой человек16.01.13 15:59

NEW 16.01.13 15:59

in Antwort Vovan(ator) 16.01.13 10:56, Zuletzt geändert 16.01.13 16:00 (helper2008)

Но мне не надо запрещать вообще доступ к этим файлам. Мне нужно закрыть только их индексирование.

вполяне - жизнь в лесу

Sergo2008 старожил16.01.13 16:20

NEW 16.01.13 16:20

in Antwort helper2008 16.01.13 15:59, Zuletzt geändert 16.01.13 16:21 (Sergo2008)

В ответ на:

Но мне не надо запрещать вообще доступ к этим файлам. Мне нужно закрыть только их индексирование.

Так это и есть запрет на индексирование... робот.тхт это файл только для роботов, запрещает или разрешает индексировать содержимое...
А вообще.., всё делается проще, просто запретить индексировать все папки где лежат данные файлы. Это конечно что у тебя там не лежат так же и нужные для индексирования файлы...

helper2008 свой человек16.01.13 16:45

NEW 16.01.13 16:45

in Antwort Sergo2008 16.01.13 16:20

Вован говорил про .htaccess.
У меня нет файлов. Всё генерирует скрипт. Хотя, есть текстовые файлы из которых и берутся тексты для страниц, но реально html-файлов нет, а значит нет и директорий, где они могли бы лежать.
Просто скрипт выдаёт неимоверное количество дублированных файлов, что не есть хорошо для индексирования.
Вот и хочу отрезать мусор, который есть в одном экземпляре на другой странице, не входящий в вышеупомянутый диапазон.

вполяне - жизнь в лесу

helper2008 свой человек16.01.13 17:41

NEW 16.01.13 17:41

in Antwort helper2008 16.01.13 16:45

В общем юзаю http://webmaster.yandex.ru/robots.xml.
Вдруг чего подберу

вполяне - жизнь в лесу

helper2008 свой человек16.01.13 17:49

NEW 16.01.13 17:49

in Antwort helper2008 16.01.13 17:41

В общем мне повезло. Конструкция ниже по тесту работает на ура. Уф :-) Сработается ли только она с Гуглом?
User-Agent: *
Disallow: /*.a$
Disallow: /*.b$
Disallow: /*.c$
Disallow: /*.d$
Disallow: /*.e$
Disallow: /*.f$
Disallow: /*.h$
Disallow: /*.i$
Если без $, то режет также и страницы вида http://site.ru/e.html

вполяне - жизнь в лесу

Vovan(ator) старожил17.01.13 07:22

NEW 17.01.13 07:22

in Antwort helper2008 16.01.13 16:45

В ответ на:

У меня нет файлов. Всё генерирует скрипт.

Скрипт генерирует содержание на основе определённых условий и выдаёт содержанеи.
А значит он создаёт свою ссылку на созданный документ.
В джумле тоже почти нету готовых файлов, но Гугл и другие поисковики рекистрируют ссылки к этим материалам.
Посмотри в адресной строке как изменяются ссылки при выводе различного материала.

#10

Vovan(ator) старожил17.01.13 07:24

NEW 17.01.13 07:24

in Antwort helper2008 16.01.13 17:49

В ответ на:

User-Agent: *

Звёздочкой ты даёшь указания всем ботам.
А Гугль относится к послушным

должно сработать.

#11

Vovan(ator) старожил17.01.13 07:29

NEW 17.01.13 07:29

in Antwort helper2008 16.01.13 16:45

В ответ на:

Вован говорил про .htaccess

Я имел в виду ,что есть такие боты, которые не придерживаются указаний robots.txt
Тогда лучше использовать .htaccess
И в .htaccess можно делать перенаправление ботов на нужные тебе ссылки если нужно.

#12

helper2008 свой человек17.01.13 08:24

NEW 17.01.13 08:24

in Antwort Vovan(ator) 17.01.13 07:29

В ответ на:

И в .htaccess можно делать перенаправление ботов на нужные тебе ссылки если нужно.

Это слишком сложно. Вроде и в роботсе должно всё заработать.

вполяне - жизнь в лесу

#13

helper2008 свой человек17.01.13 08:30

NEW 17.01.13 08:30

in Antwort Vovan(ator) 17.01.13 07:22

В ответ на:

Скрипт генерирует содержание на основе определённых условий и выдаёт содержанеи.
А значит он создаёт свою ссылку на созданный документ.

На виртуальный документ :-)

В ответ на:

В джумле тоже почти нету готовых файлов, но Гугл и другие поисковики рекистрируют ссылки к этим материалам.
Посмотри в адресной строке как изменяются ссылки при выводе различного материала.

Мне не надо ничего смотреть. У меня движок самописный и я сам ему указываю в каком формате создавать ссылки и какие в итоге ссылки ловить на обработку.

вполяне - жизнь в лесу

#14

Sergo2008 старожил17.01.13 09:03

NEW 17.01.13 09:03

in Antwort helper2008 16.01.13 16:45, Zuletzt geändert 17.01.13 09:03 (Sergo2008)

В ответ на:

Просто скрипт выдаёт неимоверное количество дублированных файлов, что не есть хорошо для индексирования.

По этому поводу тебе нужно это - канонизация ссылок или убрать дубли ссылок. Почитай, я одно время тоже этим интересовался, и видал одно хорошее решение, по крайней мере для Joomla 1.5.

#15

Vovan(ator) старожил17.01.13 10:29

17.01.13 10:29

in Antwort helper2008 17.01.13 08:30

В ответ на:

Мне не надо ничего смотреть. У меня движок самописный и я сам ему указываю в каком формате создавать ссылки

Ну тогда тем-более проблем не должно быть.
Создай нужные адреса и сделай перенаправление для ненужных ссылок или для дублей.
Здесь:
foren.germany.ru/webmaster/f/23162770.html?Cat=&page=1&view=collapsed&sb=...
Я уже объяснял как это делается через .htaccess
Снизу смотри, предпоследний ответ.
По сложности это не сложней чем с robots.txt

#16

helper2008 свой человек17.01.13 14:40

NEW 17.01.13 14:40

in Antwort Vovan(ator) 17.01.13 10:29

У меня система такая:
- каждое сообщение имеет расширение .post
- раздел имеет буквенное расширение в зависимости от раздела (a.html, b.html, c.html и тэдэ)
- раздел разбит по 10 сообщений, соответвенно имеет расширение 13-4.c и 3-1.c (если две страницы с постами с 13 по 4 и с 3 по 1)
Вот и индексирует Яндекс эти 13-4.с, хотя шапка с текстом у него одинаковая с c.html

вполяне - жизнь в лесу

#17

3AHYDA Слонег в законе17.01.13 18:43

NEW 17.01.13 18:43

in Antwort helper2008 16.01.13 09:51

http://drupalim.ru/robotstxt-gibkaya-nastroyka

#18