Администраторам сайтов
- Могу ли я использовать вашу поисковую машину для поиска только по моему сайту ?
- Можете, но при соблюдении некоторых требований. Подробнее об этом написано на странице О проекте
- Как часто индексируются сайты ?
- Мы стараемся поддерживать поисковую базу как можно актуальной, обычно полная индексация всей коллекции сайтов занимает 3-4 дня.
- Я послал заявку, чтобы мой сайт был включен в вашу коллекцию, но он до сих пор не включен в вашу базу ?
- На это может быть несколько причин:
- Ваш сайт не подходит по тематике коллекции
- Во время последнего обхода ваш сайт не отвечал на запросы (по причине отсутствия связи или сбоев в работе вашего сайта)
- Администратор не успел включить ваш сайт в нашу коллекцию по тем или иным причинам (администратор тоже человек - может и заболеть)
- Как сделать так, чтобы часть сервера не индексировалась ?
- Наш краулер, поддерживает стандарт "Robots exclusion protocol", прочитать подробнее, про который, можно здесь
Пример файла 'robots.txt', который должен быть доступен как http://ваш.сервер/robots.txt, и который предполагает, что директория /cgi-bin/ закрыта для доступа всем агентам, которые идентифицируют себя как 'Offline Explorer', а директория /private/ закрыта для всехUser-agent: Offline Explorer Disallow: /cgi-bin/ User-agent: * Disallow: /private/Наш краулер можно опознать в логах вашего сервера по полю 'User-agent' GTSCrawler.- Не все страницы индексируются вашим краулером
- Возможны несколько причин:
- Ваши страницы используют Javascript и наш краулер не смог пройтись по всем линкам с таких страниц. Мы рекомендуем создать специальную страницу без использования javascript, содержащую ссылки на ваши страницы и послать ее URL администратору поисковой машины. В следующий раз краулер будет использовать ее как 'точку входа' в ваш сайт.
- Ваш сайт доступен под несколькими именами, например www.ваш.сервер и ваш.сервер. Наш краулер распознает дубликаты страниц и поэтому кол-во документов может одного из серверов может сильно меньше. На странице статистики вы можете посмотреть статистику по всем синонимам вашего сервера (используйте поиск).
- По умолчанию мы не индексируем CGI скрипты, страницы с одинаковым содержанием, но отличающиеся кодировкой (индексируется только одна копия). Правила отбора страниц основаны на нашем опыте и включают большой элемент эвристики, что, конечно, не исключает ошибок. Поэтому сообщайте нам все 'проблемные' случаи и мы будем рады их разрешить.
- У меня есть вопросы по поисковой системе, к кому я могу обратиться ?
- Вы можете послать письмо администратору поисковой системы, адрес которого имеется на странице О проекте
Астронет | Научная сеть | ГАИШ МГУ | Поиск по МГУ | О проекте | Авторам
Комментарии, вопросы? Пишите: info@astronet.ru или сюда