русский
Germany.ruForen → Архив Досок→ Webdesign und Hosting

robots.txt

308  
helper2008 свой человек16.01.13 09:51
helper2008
NEW 16.01.13 09:51 
Zuletzt geändert 16.01.13 09:56 (helper2008)
Нужно запретить все файлы вида http://site.ru/[0-9]*-[0-9]*.[a-z]
Что писать в сабже?
User-Agent: *
Disallow: [0-9]*-[0-9]*.[a-z]
Прокатит?
П.С. Можно вообще запретить все файлы вида site.ru/*.[a-k]
Как это прописать?
вполяне - жизнь в лесу
#1 
project33 коренной житель16.01.13 10:30
project33
16.01.13 10:30 
in Antwort helper2008 16.01.13 09:51
не прокатит. читай про регулярные выражения robots.txt здесь http://help.yandex.ru/webmaster/?id=996567#996572
Продвижение сайтов, реклама: https://www.pro33.net
#2 
Vovan(ator) старожил16.01.13 10:56
Vovan(ator)
NEW 16.01.13 10:56 
in Antwort helper2008 16.01.13 09:51
В ответ на:
Нужно запретить все файлы вида

Если я не ошибаюсь, то robots.txt это больше как лёгкое руководство для поведения ботов.
И есть некоторые, которые этих руководств не придерживаются.
Если хочешь действительно запретить, то по моему лучше через .htaccess
#3 
helper2008 свой человек16.01.13 15:57
helper2008
NEW 16.01.13 15:57 
in Antwort project33 16.01.13 10:30, Zuletzt geändert 16.01.13 15:58 (helper2008)
Спасибо за ссылку.
Значит:
User-Agent: *
Disallow: /*.a
Disallow: /*.b
Disallow: /*.c
Disallow: /*.d
Disallow: /*.e
Disallow: /*.f
Disallow: /*.h
Disallow: /*.i

должно сработать? Хотя бы для Яндекса.
вполяне - жизнь в лесу
#4 
helper2008 свой человек16.01.13 15:59
helper2008
NEW 16.01.13 15:59 
in Antwort Vovan(ator) 16.01.13 10:56, Zuletzt geändert 16.01.13 16:00 (helper2008)
Но мне не надо запрещать вообще доступ к этим файлам. Мне нужно закрыть только их индексирование.
вполяне - жизнь в лесу
#5 
Sergo2008 старожил16.01.13 16:20
Sergo2008
NEW 16.01.13 16:20 
in Antwort helper2008 16.01.13 15:59, Zuletzt geändert 16.01.13 16:21 (Sergo2008)
В ответ на:
Но мне не надо запрещать вообще доступ к этим файлам. Мне нужно закрыть только их индексирование.

Так это и есть запрет на индексирование... робот.тхт это файл только для роботов, запрещает или разрешает индексировать содержимое...
А вообще.., всё делается проще, просто запретить индексировать все папки где лежат данные файлы. Это конечно что у тебя там не лежат так же и нужные для индексирования файлы...
#6 
helper2008 свой человек16.01.13 16:45
helper2008
NEW 16.01.13 16:45 
in Antwort Sergo2008 16.01.13 16:20
Вован говорил про .htaccess.
У меня нет файлов. Всё генерирует скрипт. Хотя, есть текстовые файлы из которых и берутся тексты для страниц, но реально html-файлов нет, а значит нет и директорий, где они могли бы лежать.
Просто скрипт выдаёт неимоверное количество дублированных файлов, что не есть хорошо для индексирования.
Вот и хочу отрезать мусор, который есть в одном экземпляре на другой странице, не входящий в вышеупомянутый диапазон.
вполяне - жизнь в лесу
#7 
helper2008 свой человек16.01.13 17:41
helper2008
NEW 16.01.13 17:41 
in Antwort helper2008 16.01.13 16:45
В общем юзаю http://webmaster.yandex.ru/robots.xml.
Вдруг чего подберу
вполяне - жизнь в лесу
#8 
helper2008 свой человек16.01.13 17:49
helper2008
NEW 16.01.13 17:49 
in Antwort helper2008 16.01.13 17:41
В общем мне повезло. Конструкция ниже по тесту работает на ура. Уф :-) Сработается ли только она с Гуглом?
User-Agent: *
Disallow: /*.a$
Disallow: /*.b$
Disallow: /*.c$
Disallow: /*.d$
Disallow: /*.e$
Disallow: /*.f$
Disallow: /*.h$
Disallow: /*.i$
Если без $, то режет также и страницы вида http://site.ru/e.html
вполяне - жизнь в лесу
#9 
Vovan(ator) старожил17.01.13 07:22
Vovan(ator)
NEW 17.01.13 07:22 
in Antwort helper2008 16.01.13 16:45
В ответ на:
У меня нет файлов. Всё генерирует скрипт.

Скрипт генерирует содержание на основе определённых условий и выдаёт содержанеи.
А значит он создаёт свою ссылку на созданный документ.
В джумле тоже почти нету готовых файлов, но Гугл и другие поисковики рекистрируют ссылки к этим материалам.
Посмотри в адресной строке как изменяются ссылки при выводе различного материала.
#10 
Vovan(ator) старожил17.01.13 07:24
Vovan(ator)
NEW 17.01.13 07:24 
in Antwort helper2008 16.01.13 17:49
В ответ на:
User-Agent: *

Звёздочкой ты даёшь указания всем ботам.
А Гугль относится к послушным должно сработать.
#11 
Vovan(ator) старожил17.01.13 07:29
Vovan(ator)
NEW 17.01.13 07:29 
in Antwort helper2008 16.01.13 16:45
В ответ на:
Вован говорил про .htaccess

Я имел в виду ,что есть такие боты, которые не придерживаются указаний robots.txt
Тогда лучше использовать .htaccess
И в .htaccess можно делать перенаправление ботов на нужные тебе ссылки если нужно.
#12 
helper2008 свой человек17.01.13 08:24
helper2008
NEW 17.01.13 08:24 
in Antwort Vovan(ator) 17.01.13 07:29
В ответ на:
И в .htaccess можно делать перенаправление ботов на нужные тебе ссылки если нужно.

Это слишком сложно. Вроде и в роботсе должно всё заработать.
вполяне - жизнь в лесу
#13 
helper2008 свой человек17.01.13 08:30
helper2008
NEW 17.01.13 08:30 
in Antwort Vovan(ator) 17.01.13 07:22
В ответ на:
Скрипт генерирует содержание на основе определённых условий и выдаёт содержанеи.
А значит он создаёт свою ссылку на созданный документ.

На виртуальный документ :-)
В ответ на:

В джумле тоже почти нету готовых файлов, но Гугл и другие поисковики рекистрируют ссылки к этим материалам.
Посмотри в адресной строке как изменяются ссылки при выводе различного материала.

Мне не надо ничего смотреть. У меня движок самописный и я сам ему указываю в каком формате создавать ссылки и какие в итоге ссылки ловить на обработку.
вполяне - жизнь в лесу
#14 
Sergo2008 старожил17.01.13 09:03
Sergo2008
NEW 17.01.13 09:03 
in Antwort helper2008 16.01.13 16:45, Zuletzt geändert 17.01.13 09:03 (Sergo2008)
В ответ на:
Просто скрипт выдаёт неимоверное количество дублированных файлов, что не есть хорошо для индексирования.

По этому поводу тебе нужно это - канонизация ссылок или убрать дубли ссылок. Почитай, я одно время тоже этим интересовался, и видал одно хорошее решение, по крайней мере для Joomla 1.5.
#15 
Vovan(ator) старожил17.01.13 10:29
Vovan(ator)
17.01.13 10:29 
in Antwort helper2008 17.01.13 08:30
В ответ на:
Мне не надо ничего смотреть. У меня движок самописный и я сам ему указываю в каком формате создавать ссылки

Ну тогда тем-более проблем не должно быть.
Создай нужные адреса и сделай перенаправление для ненужных ссылок или для дублей.
Здесь:
foren.germany.ru/webmaster/f/23162770.html?Cat=&page=1&view=collapsed&sb=...
Я уже объяснял как это делается через .htaccess
Снизу смотри, предпоследний ответ.
По сложности это не сложней чем с robots.txt
#16 
helper2008 свой человек17.01.13 14:40
helper2008
NEW 17.01.13 14:40 
in Antwort Vovan(ator) 17.01.13 10:29
У меня система такая:
- каждое сообщение имеет расширение .post
- раздел имеет буквенное расширение в зависимости от раздела (a.html, b.html, c.html и тэдэ)
- раздел разбит по 10 сообщений, соответвенно имеет расширение 13-4.c и 3-1.c (если две страницы с постами с 13 по 4 и с 3 по 1)
Вот и индексирует Яндекс эти 13-4.с, хотя шапка с текстом у него одинаковая с c.html
вполяне - жизнь в лесу
#17 
3AHYDA Слонег в законе17.01.13 18:43
3AHYDA
NEW 17.01.13 18:43 
in Antwort helper2008 16.01.13 09:51