Можете с тремя пунктами помочь, а то я немного накосячил форум начал ошибки выдавать ))
Использование robots.txt
Что такое файл robots.txt
Как создать robots.txt
Директива User-agent
Директивы Disallow и Allow
Использование спецсимволов * и $
Директива sitemap
Директива Host
Директива Crawl-delay
Директива Clean-param
Дополнительная информация
Исключения
Что такое файл robots.txt
Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.
Также рекомендуем просмотреть урок Как управлять индексированием сайта.
Как создать robots.txt
В текстовом редакторе создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами.
Проверьте файл в сервисе Яндекс.Вебмастер (пункт меню Анализ robots.txt).
Загрузите файл в корневую директорию вашего сайта.
Директива User-agent
Робот Яндекса поддерживает стандарт исключений для роботов с расширенными возможностями, которые описаны ниже.
В роботе Яндекса используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует загрузить робот.
Сессия начинается с загрузки файла robots.txt. Если файл отсутствует, не является текстовым или на запрос робота возвращается HTTP-статус отличный от 200 OK, робот считает, что доступ к документам не ограничен.
В файле robots.txt робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или * . Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.
Следующим роботам Яндекса можно указать отдельные директивы:
'YandexBot' — основной индексирующий робот;
'YandexDirect' — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
'YandexDirectDyn' — робот генерации динамических баннеров, интерпретирует robots.txt особым образом;
'YandexMedia' — робот, индексирующий мультимедийные данные;
'YandexImages' — индексатор Яндекс.Картинок;
'YaDirectFetcher' — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
'YandexBlogs'поиска по блогам — робот , индексирующий посты и комментарии;
'YandexNews' — робот Яндекс.Новостей;
'YandexPagechecker' — валидатор микроразметки;
‘YandexMetrika’ — робот Яндекс.Метрики;
‘YandexMarket’— робот Яндекс.Маркета;
‘YandexCalendar’ — робот Яндекс.Календаря.
Если обнаружены директивы для конкретного робота, директивы User-agent: Yandex и User-agent: * не используются.
Пример:
User-agent: YandexBot # будет использоваться только основным индексирующим роботом
Disallow: /*id=
User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего
User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
Директивы Disallow и Allow
Чтобы запретить доступ робота к сайту или некоторым его разделам, используйте директиву Disallow.
Примеры:
User-agent: Yandex
Disallow: / # блокирует доступ ко всему сайту
User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам,
# начинающимся с '/cgi-bin'
В соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.
Символ # предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.
Чтобы разрешить доступ робота к сайту или некоторым его разделам, используйте директиву Allow
Примеры:
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'
Примечание. Недопустимо наличие пустых переводов строки между директивами User-agent, Disallow и Allow.
Совместное использование директив
Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом. Примеры:
# Исходный robots.txt:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Сортированный robots.txt:
User-agent: Yandex
Disallow: /
Allow: /catalog
# разрешает скачивать только страницы,
# начинающиеся с '/catalog'
# Исходный robots.txt:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Сортированный robots.txt:
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с '/catalog',
# но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.
Примечание. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.
Директивы Allow и Disallow без параметров
Если директивы не содержат параметры, учитывает данные следующим образом:
User-agent: Yandex
Disallow: # то же, что и Allow: /
User-agent: Yandex
Allow: # не учитывается роботом
Использование спецсимволов * и $
При указании путей директив Allow и Disallow можно использовать спецсимволы * и $, задавая, таким образом, определенные регулярные выражения. Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
# и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
# но и '/cgi-bin/private'
Спецсимвол $
По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. Пример:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое
Чтобы отменить * на конце правила, можно использовать спецсимвол $, например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example',
# но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example',
# и '/example.html'
Спецсимвол $ не запрещает указанный * на конце, то есть:
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
# запрещает и /example.html и /example
Директива sitemap
Если вы используете описание структуры сайта с помощью файла sitemap, укажите путь к файлу в качестве параметра директивы sitemap (если файлов несколько, укажите все). Пример:
User-agent: Yandex
Allow: /
sitemap: http://example.com/site_structure/my_sitemaps1.xml
sitemap: http://example.com/site_structure/my_sitemaps2.xml
Робот запомнит путь к файлу, обработает данные и будет использовать результаты при последующем формировании сессий загрузки.
директива вот так включается?