Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.cplire.ru/rus/InformChaosLab/products/forget-me-not.htm
Дата изменения: Mon Aug 27 18:21:03 2007
Дата индексирования: Tue Oct 2 12:39:01 2012
Кодировка: Windows-1251
DataFax Wizard
InformChaos Lab. Logo
Предлагаемые продукты

Информационно-поисковая система
"НЕЗАБУДКА"

Описание программы и примеры использования

СОДЕРЖАНИЕ


  ЗАГРУЗИТЬ  
 


Назначение

Вверх
Программный комплекс "Незабудка" предназначен для записи и работы с неструктурированными факсимильными электронными копиями бумажных документов (книги, газеты, входящая и выходящая деловая документация и др.) и текстовыми документами в операционных системах Windows 95/98, Windows NT 4.0.

Задачей комплекса является поиск документов (с идентификацией места в документе) при запросах на естественном языке. В отличие от большинства поисковых систем основными режимами поиска являются не поиск по отдельным словам или словам с логическими связями, а поиск по достаточно большому фрагменту документа или целому документу. Соответственно, результатом поиска является не нахождение документов в которых попадается слово - запрос (возможно с его словоформами), а поиск документов наиболее близких по содержанию к предъявляемому фрагменту документа.

Технология

Вверх
Технология основана на идее использования сложной динамики нелинейных систем. В ней информационному образу ставится во взаимно-однозначное соответствие периодическое движение динамической системы-"хранилища" информации. При этом имеет место следующее соотношение между информацией и динамикой:

При работе с факсимильными электронными копиями бумажных документов предварительно производится распознавание текстов этих документов и создание текстового варианта документа, который используется при поиске информации. Массив входящих документов в текстовом формате обрабатывается программным комплексом и преобразуется в динамический архив - хранилище текстовых информационных образов. В процессе анализа массива создается внутренний искусственный язык, отвечающий содержанию записанных документов. Этот язык совместно с динамической системой обеспечивает в дальнейшем поиск информации по содержанию (ассоциативный поиск).

Поиск информации

Вверх
Комплекс предоставляет пользователю три разные возможности для поиска документов.
  1. Уникальный поиск. В этом случае система осуществляет поиск именно того фрагмента текста или документа который ей предъявляется в виде образца. Если предъявляемый фрагмент имеется в записанном массиве документов, он будет найден даже в случае некоторого несоответствия между предъявляемым фрагментом и его записью в массиве (замена отдельных слов на синонимы, пропуск или вставка слов, орфографические ошибки и т.п.). Типичная минимальная требуемая длина запроса в этом методе поиска составляет 1-2 строки текста.

  2. Поиск с разбором. В этом методе поиска предъявляемый пользователем фрагмент документа представляется комплексом во внутреннем языке системы, соответствующем тому массиву информации на котором осуществляется поиск. Далее производится разбор предъявленного фрагмента по устойчивым "словам" внутреннего языка системы. Результат разбора предоставляется пользователю. Каждое "слово" является входом, которому соответствует хотя бы один документ в архиве. Визуальный просмотр разбора позволяет пользователю выбрать наиболее информативные с его точки зрения входы. Кроме того разбор служит и своего рода подсказкой, помогающей оценить какие слова и словосочетания являются ключевыми при поиске документов в данном архиве.

  3. Стандартный поиск. Здесь поиск осуществляется стандартным образом по отдельному слову или комбинации слов с логическими операциями между ними.

Рабочая среда

Вверх
Программный комплекс реализован как поисковая машина, доступ к которой можно получить используя стандартные браузеры типа Netscape Navigator и Internet Explorer. Для начала работы с комплексом в Windows 95 и Windows 98 должна быть запущена программа Personal Information Server, а в Windows NT программа Internet Information Server. Комплекс обеспечивает работу на персональном компьютере, в локальной сети и в Интернете.

Технические характеристики

Вверх
  1. Информация в системе располагается в ящиках-архивах, размер каждого ящика лимитируется оперативной памятью компьютера, на котором располагается поисковая система. Рекомендуемые объемы ящиков до 32 Мбайт. При объемах ящиков до 2-4 Мбайт объем хранимой переработанной информации может быть на 15-20% меньше объема входного потока.

    Внутри ящика информация раскладывается по папкам, куда складываются документы однородные, например, по тематике или определенному отрезку времени поступления.

    Квантом хранимой информации является документ. Ограничений на размеры папок и документов внутри ящика нет.

    Пример. Факсимильный электронный вариант книги.

    или

    Время поиска в пределах ящика - доли секунды.

  2. Объем обрабатываемой входной информации (по производительности) на компьютере Pentium с частотой 200 Мгц 10-20 Мбайт/час.

Как получить ?

Вверх
Начиная с 10 апреля инсталляционный пакет бета-версии комплекса "Незабудка" можно получить на Web-странице http://www.cplire.ru/win/InformChaosLab/products/download.html вместе с примерами архивов.

В качестве примеров архивов предлагаются факсимильные электронные варианты книг и газетных материалов:

  1. R. Lewin. Complexity. Life at the Edge of Chaos (40 Mb, из них текстовая версия 1 Mb).
  2. Материалы о космосе из газеты "Калининградская правда" 1995-1997 гг. (23 Mb, текстовая версия 855 Kb).
  3. F.P. Feynman. Feynman Lectures on Computation (32 Mb, из них текстовая версия 1 Mb).

В примерах архивов каждая страница книги рассматривается как отдельный документ. Результатом работы поисковой системы является список страниц с найденной информацией. При входе по ссылке в текстовую версию документа высвечивается место в документе, соответствующее запросу. Каждому текстовой версии документа сопоставлена графическая факсимильная версия.

Система может работать как совместно с текстовой и факсимильной версиями документов, так и с чисто текстовыми версиями. Ввиду ограниченности места на Web странице будут размещены:

Полные факсимильные электронные версии вышеупомянутых книг, а также ряда других материалов по тематике динамического хаоса и смежным вопросам можно получить в обменном фонде факсимильных электронных версий книг и материалов конференций лаборатории.

Справки по электронному адресу: chaos@mail.cplire.ru
или по телефону: (495) 629-7278.

Слайд-шоу

Вверх



Информационно-поисковый комплекс "Незабудка"
InformChaos Lab., 1999 г.