Astronet Астронет: С. В. Аюков/ГАИШ Назначение и возможности системы GTSearch
http://variable-stars.ru/db/msg/1195098
Назначение и возможности системы GTSearch Назначение и возможности системы GTSearch
10.11.2003 18:19 | С. В. Аюков/ГАИШ, Москва

Поисковая машина GTSearch предназначена для работы с веб-документами (документами, доступными с веб-серверов по протоколу HTTP). Она позволяет выполнять поиск документов по заданным ключевым словам и имеет разнообразные сопутствующие функции.

Система GTSearch создана при поддержке Российского фонда фундаментальных исследований (гранты 02-07-90222-в и 03-07-90187-в) и компании Delta-Soft.

Рабочая эксплуатация системы начата в ноябре 2003 года в рамках проектов Поиск по МГУ и Поиск по астрономическим сайтам России.

Функции и возможности GTSearch

Основная функция поисковой машины GTSearch (Generic Text Search) - поиск по ключевым словам в документах, доступных по протоколу HTTP. Документы перекачиваются с веб-серверов на локальный компьютер и по ним строится так называемый "обратный индекс", который дает возможность по заданным ключевым словам искать документы, содержащие эти слова. Найденные документы ранжируются в соответствии с критериями релевантности: положением слов внутри документа, близостью ключевых слов друг к другу. Также может учитываться количество внешних ссылок на документ для выделения "важных" документов.

Кроме поиска, GTSearch может использоваться для организации работы с веб-документами: показ списков документов (общий список, посайтовый список и др.), показ наиболее свежих документов (или наиболее старых для выявления давно не обновлявшихся), локальное хранение и извлечение копий документов, разбиение множества документов на рубрики и просмотр рубрик.

Область применения и решаемые задачи

Поиск по сайту: организуйте поиск по вашему сайту или нескольким сайтам на современном уровне. Никаких специальных доработок сайта, как правило, не требуется (за исключением добавления формы поиска).

Тематический поиск: собрав коллекцию веб-ресурсов на заданную тему (например, комнатные растения), организуйте поиск по ней. Это отличное дополнение к тематическому сайту (например, сайту фирмы, производящей горшки или удобрения), а также рекламная площадка с строго целевым траффиком. Для качественного функционирования тематического поиска необходимо поддерживать актуальный список сайтов по теме.

Поддержка каталога ресурсов: поиск является отличным дополнением к каталогу веб-ресурсов. Как правило, каталог сложнее в обращении, чем поиск, поэтому для нетерпеливого (или очень занятого) пользователя поиск позволяет сильно сократить время нахождения нужной информации на каталогизированных ресурсах. GTSearch имеет встроенные средства для интеграции с каталогами ресурсов (поддержка рубрик).

Мониторинг сайта или группы сайтов: организуйте постоянный обход нужных сайтов, выявление недавно изменившихся документов и поиск по ним. Это надежный способ не пропустить ничего нового, причем обновленные и вновь появившиеся документы могут быть представлены в виде удобного списка, отсортированного или по сетевому имени (URL), или по времени последней модификации.

Список возможностей

Ограничения

Основное ограничение -- количество и объем обрабатываемых документов. С одной стороны, GTSearch не использует эвристических методов при поиске и всегда выдает точные результаты. Обычно в больших поисковых системах точность поиска зависит от загрузки системы, но в GTSearch это не так. Кроме того, GTSearch не имеет средств для параллелизации поиска. Поэтому на современном компьютере с процессором Intel с частотой 2-3 ГГц разумный предел числа обрабатываемых документов составляет около 10 млн. (принимая средний размер документа равным 10KB). Производительность начинает заметно падать при числе документов, превышающем 1 млн.

Отметим, что общее количество документов в Российском сегменте интернета в 2003 году составляет порядка 100 млн. (по данным крупнейших поисковых систем Rambler и Yandex). Эти документы охватывают тысячи тематик, и, таким образом, для организации тематического поиска не требуется обрабатывать более нескольких миллионов документов.


Rambler's Top100 Яндекс цитирования