Предлагаемые продукты
Информационно-поисковая система
"НЕЗАБУДКА"
Описание программы и примеры использования
СОДЕРЖАНИЕ
Программный комплекс "Незабудка" предназначен для записи и работы с неструктурированными факсимильными электронными копиями бумажных документов (книги, газеты, входящая и выходящая деловая документация и др.) и текстовыми документами в операционных системах Windows 95/98, Windows NT 4.0.
Задачей комплекса является поиск документов (с идентификацией места в документе) при запросах на естественном языке. В отличие от большинства поисковых систем основными режимами поиска являются не поиск по отдельным словам или словам с логическими связями, а поиск по достаточно большому фрагменту документа или целому документу. Соответственно, результатом поиска является не нахождение документов в которых попадается слово - запрос (возможно с его словоформами), а поиск документов наиболее близких по содержанию к предъявляемому фрагменту документа.
Технология основана на идее использования сложной динамики нелинейных систем. В ней информационному образу ставится во взаимно-однозначное соответствие периодическое движение динамической системы-"хранилища" информации. При этом имеет место следующее соотношение между информацией и динамикой:
- информационный образ движение по периодической орбите (аттрактору);
- совокупность образов ("хранилище") множество периодических орбит, принадлежащих динамической системе;
- считывание образа задание начальных условий движения и переход к движению по соответствующей периодической орбите.
При работе с факсимильными электронными копиями бумажных документов предварительно производится распознавание текстов этих документов и создание текстового варианта документа, который используется при поиске информации. Массив входящих документов в текстовом формате обрабатывается программным комплексом и преобразуется в динамический архив - хранилище текстовых информационных образов. В процессе анализа массива создается внутренний искусственный язык, отвечающий содержанию записанных документов. Этот язык совместно с динамической системой обеспечивает в дальнейшем поиск информации по содержанию (ассоциативный поиск).
| |
Комплекс предоставляет пользователю три разные возможности для поиска документов.
- Уникальный поиск. В этом случае система осуществляет поиск именно того фрагмента текста или документа который ей предъявляется в виде образца. Если предъявляемый фрагмент имеется в записанном массиве документов, он будет найден даже в случае некоторого несоответствия между предъявляемым фрагментом и его записью в массиве (замена отдельных слов на синонимы, пропуск или вставка слов, орфографические ошибки и т.п.). Типичная минимальная требуемая длина запроса в этом методе поиска составляет 1-2 строки текста.
- Поиск с разбором. В этом методе поиска предъявляемый пользователем фрагмент документа представляется комплексом во внутреннем языке системы, соответствующем тому массиву информации на котором осуществляется поиск. Далее производится разбор предъявленного фрагмента по устойчивым "словам" внутреннего языка системы. Результат разбора предоставляется пользователю. Каждое "слово" является входом, которому соответствует хотя бы один документ в архиве. Визуальный просмотр разбора позволяет пользователю выбрать наиболее информативные с его точки зрения входы. Кроме того разбор служит и своего рода подсказкой, помогающей оценить какие слова и словосочетания являются ключевыми при поиске документов в данном архиве.
- Стандартный поиск. Здесь поиск осуществляется стандартным образом по отдельному слову или комбинации слов с логическими операциями между ними.
| |
Программный комплекс реализован как поисковая машина, доступ к которой можно получить используя стандартные браузеры типа Netscape Navigator и Internet Explorer. Для начала работы с комплексом в Windows 95 и Windows 98 должна быть запущена программа Personal Information Server, а в Windows NT программа Internet Information Server. Комплекс обеспечивает работу на персональном компьютере, в локальной сети и в Интернете.
| |
- Информация в системе располагается в ящиках-архивах, размер каждого ящика лимитируется оперативной памятью компьютера, на котором располагается поисковая система. Рекомендуемые объемы ящиков до 32 Мбайт. При объемах ящиков до 2-4 Мбайт объем хранимой переработанной информации может быть на 15-20% меньше объема входного потока.
Внутри ящика информация раскладывается по папкам, куда складываются документы однородные, например, по тематике или определенному отрезку времени поступления.
Квантом хранимой информации является документ. Ограничений на размеры папок и документов внутри ящика нет.
Пример. Факсимильный электронный вариант книги.
- - Ящик-архив - сама книга;
- - Папка - глава книги
- - Документ - страница книги.
или
- - Ящик-архив - набор книг (книжная полка);
- - Папка - книга
- - Документ - глава книги.
Время поиска в пределах ящика - доли секунды.
- Объем обрабатываемой входной информации (по производительности) на компьютере Pentium с частотой 200 Мгц 10-20 Мбайт/час.
| |
Начиная с 10 апреля инсталляционный пакет бета-версии комплекса "Незабудка" можно получить на Web-странице http://www.cplire.ru/win/InformChaosLab/products/download.html вместе с примерами архивов.
В качестве примеров архивов предлагаются факсимильные электронные варианты книг и газетных материалов:
- R. Lewin. Complexity. Life at the Edge of Chaos (40 Mb, из них текстовая версия 1 Mb).
- Материалы о космосе из газеты "Калининградская правда" 1995-1997 гг. (23 Mb, текстовая версия 855 Kb).
- F.P. Feynman. Feynman Lectures on Computation (32 Mb, из них текстовая версия 1 Mb).
В примерах архивов каждая страница книги рассматривается как отдельный документ. Результатом работы поисковой системы является список страниц с найденной информацией. При входе по ссылке в текстовую версию документа высвечивается место в документе, соответствующее запросу. Каждому текстовой версии документа сопоставлена графическая факсимильная версия.
Система может работать как совместно с текстовой и факсимильной версиями документов, так и с чисто текстовыми версиями. Ввиду ограниченности места на Web странице будут размещены:
- загрузочный модуль программы Незабудка для Windows 95/98 и Windows NT;
- текстовые версии вышеупомянутых книг и материалов;
- фрагменты факсимильных электронных версий материалов (до 5 Mb каждый).
Полные факсимильные электронные версии вышеупомянутых книг, а также ряда других материалов по тематике динамического хаоса и смежным вопросам можно получить в обменном фонде факсимильных электронных версий книг и материалов конференций лаборатории.
Справки по электронному адресу: chaos@mail.cplire.ru
или по телефону: (495) 629-7278.
Информационно-поисковый комплекс "Незабудка"
InformChaos Lab., 1999 г.