Астронет: С. В. Аюков/ГАИШ Назначение и возможности системы GTSearch http://variable-stars.ru/db/msg/1194827 |
10.11.2003 18:19 | С. В. Аюков/ГАИШ, Москва
Поисковая машина GTSearch предназначена для работы с веб-документами (документами, доступными с веб-серверов по протоколу HTTP). Она позволяет выполнять поиск документов по заданным ключевым словам и имеет разнообразные сопутствующие функции.
Система GTSearch создана при поддержке Российского фонда фундаментальных исследований (гранты 02-07-90222-в и 03-07-90187-в) и компании Delta-Soft.
Рабочая эксплуатация системы начата в ноябре 2003 года в рамках проектов Поиск по МГУ и Поиск по астрономическим сайтам России.
Функции и возможности GTSearch
Основная функция поисковой машины GTSearch (Generic Text Search) - поиск по ключевым словам в документах, доступных по протоколу HTTP. Документы перекачиваются с веб-серверов на локальный компьютер и по ним строится так называемый "обратный индекс", который дает возможность по заданным ключевым словам искать документы, содержащие эти слова. Найденные документы ранжируются в соответствии с критериями релевантности: положением слов внутри документа, близостью ключевых слов друг к другу. Также может учитываться количество внешних ссылок на документ для выделения "важных" документов.
Кроме поиска, GTSearch может использоваться для организации работы с веб-документами: показ списков документов (общий список, посайтовый список и др.), показ наиболее свежих документов (или наиболее старых для выявления давно не обновлявшихся), локальное хранение и извлечение копий документов, разбиение множества документов на рубрики и просмотр рубрик.
Область применения и решаемые задачи
Поиск по сайту: организуйте поиск по вашему сайту или нескольким сайтам на современном уровне. Никаких специальных доработок сайта, как правило, не требуется (за исключением добавления формы поиска).
Тематический поиск: собрав коллекцию веб-ресурсов на заданную тему (например, комнатные растения), организуйте поиск по ней. Это отличное дополнение к тематическому сайту (например, сайту фирмы, производящей горшки или удобрения), а также рекламная площадка с строго целевым траффиком. Для качественного функционирования тематического поиска необходимо поддерживать актуальный список сайтов по теме.
Поддержка каталога ресурсов: поиск является отличным дополнением к каталогу веб-ресурсов. Как правило, каталог сложнее в обращении, чем поиск, поэтому для нетерпеливого (или очень занятого) пользователя поиск позволяет сильно сократить время нахождения нужной информации на каталогизированных ресурсах. GTSearch имеет встроенные средства для интеграции с каталогами ресурсов (поддержка рубрик).
Мониторинг сайта или группы сайтов: организуйте постоянный обход нужных сайтов, выявление недавно изменившихся документов и поиск по ним. Это надежный способ не пропустить ничего нового, причем обновленные и вновь появившиеся документы могут быть представлены в виде удобного списка, отсортированного или по сетевому имени (URL), или по времени последней модификации.
Список возможностей
- Извлечение индексируемых документов производится по стандартному протоколу HTTP, что позволяет обрабатывать любые сайты; доступа к файловой системе сайта не требуется. Не требуется также явного согласия владельца сайта на индексацию. В то же время поддерживается управление областью индексации через стандарт robots.txt.
- Имеется гибкое управление множеством документов, подлежащих индексации (включение/исключение групп документов по шаблонам для URL).
- Возможна индексация документов в форматах, отличных от HTML и текста, например Microsoft Word, Posctscript, PDF.
- Процессы краулинга/индексации и поиска разделены во времени и дисковом пространстве. Это позволяет выполнять их параллельно, без остановки поискового сервиса.
- Сервер поиска может работать на отдельной машине для удобства администрирования или повышения производительности.
- Поиск по ключевым словам возможен по критериям "и", "или", "не". Имеется поиск фраз (слов, следующих друг за другом); фразы также могут участвовать в операциях "и", "или", "не".
- Поисковая система использует современные алгоритмы подсчета релевантности документа данному запросу, учитывающие: частотность слова в документе; положение слова в документе (HTML тэги); частотность слова в коллекции документов; позицию слова от начала документа; близость слов друг к другу в документе.
- Результаты поиска (список найденных документов) могут быть представлены в любом формате; для каждого найденного документа приводятся: список сетевых имен (URL), под которыми известен документ; размер; время последней модификации; время последнего обхода; кодировка (для документов на русском языке); формат (HTML, текст, PDF и т.п.); начало документа; фрагменты документа, содержащие ключевые слова; список рубрик, к которым принадлежит документ.
- Имеется возможность поиска документов, похожих на заданный документ или заданный текст.
- Имеется возможность поиска по всем формам слов, в т.ч. для слов, неизвестных словарю (по алгоритмам обрезания); в одном запросе расширение по формам можно задавать для каждого слова индивидуально.
- Документы, скачанные с сервера, хранятся локально и могут выдаваться по запросу (например, в случае, когда оригинальный документ временно недоступен из-за сетевых проблем или был удален). Для преобразованных документов (например, Microsoft Word, PDF) выдается текст, полученный в результате преобразования. Это позволяет быстро просматривать на экране содержимое документа без использования оригинальной программы чтения (Microsoft Word, Adobe Acrobat Reader).
- Результаты поиска могут группироваться по сайтам, по сайтам/каталогам, сайтам/подкаталогам для более наглядного представления. При необходимости возможно разворачивание сгруппированных результатов.
- Слова, не несущие содержательной информации (союзы, предлоги) по умолчанию игнорируются при поиске для ускорения работы, но имеется возможность явного включения их в запрос.
- Результаты поиска могут быть отсортированы по дате последней модификации как для выявления самых новых документов, так и самых старых. Также возможна фильтрация результатов поиска по диапазону времени последней модификации.
- Имеется возможность выдачи списка индексируемых сайтов, отсортированного как в алфавитном порядке, так и по количеству индексируемых документов на каждом сайте.
- Имеется возможность выдачи списка индексируемых документов; список документов может быть отфильтрован по рубрикам, сайтам, диапазонам времени последней модификации; отсортирован в алфавитном порядке или по дате последней модификации.
- Каждому документу может быть присвоен произвольный список рубрик; рубрики могут использоваться для ограничения области поиска/просмотра списка документов, а также для классификации документов.
- Возможен поиск по отдельному сайту, части отдельного сайта или произвольной совокупности сайтов/частей сайтов. Спискам сайтов и частей сайтов может быть присвоено короткое имя.
Ограничения
Основное ограничение -- количество и объем обрабатываемых документов. С одной стороны, GTSearch не использует эвристических методов при поиске и всегда выдает точные результаты. Обычно в больших поисковых системах точность поиска зависит от загрузки системы, но в GTSearch это не так. Кроме того, GTSearch не имеет средств для параллелизации поиска. Поэтому на современном компьютере с процессором Intel с частотой 2-3 ГГц разумный предел числа обрабатываемых документов составляет около 10 млн. (принимая средний размер документа равным 10KB). Производительность начинает заметно падать при числе документов, превышающем 1 млн.
Отметим, что общее количество документов в Российском сегменте интернета в 2003 году составляет порядка 100 млн. (по данным крупнейших поисковых систем Rambler и Yandex). Эти документы охватывают тысячи тематик, и, таким образом, для организации тематического поиска не требуется обрабатывать более нескольких миллионов документов.