Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://www.cplire.ru/rus/casr/projects/centre/report/1_4.html
Дата изменения: Mon Apr 23 14:23:09 2001 Дата индексирования: Sat Dec 22 12:04:53 2007 Кодировка: Windows-1251 Поисковые слова: п п п п п п п п п п п п п п п п п п |
CВОДНЫЙ
ОТЧЕТ ПО ПРОЕКТУ ? В0022 "Центр коллективного пользования для тестирования, нормативной и методической поддержки суперкомпьютерных вычислений в области открытых систем" 1.4 База данных и поисковая система Количество информации по проблеме ИВРНО в сети Интернет экспоненциально нарастает. Существуют как англоязычные так и русскоязычные профессиональные Интернет-сайты, посвященные тем или иным аспектам высокопроизводительных вычислений. Вместе с тем само это обилие информации часто приводит к затруднениям при необходимости найти в сети Интернет информационный ресурс, посвященный той или иной проблеме, актуальной в данный момент для пользователя. Эти факторы приводят к необходимости создания как базы данных по проблеме ИВРНО, так и автоматизированной поисковой системы. Универсальные поисковые Интернет-сайты в данной ситуации не дают адекватного решения именно в силу своей универсальности. Число ресурсов, выдаваемых универсальными контекстными поисковыми машинами в ответ на простой запрос, часто слишком велико для рационального использования, эти ресурсы, как правило, не структурированы. Эффективным решением в этой ситуации может быть создание специализированного проблемно-ориентированного поискового каталога, в сочетании с системой атрибутно-контекстной навигации и каталогизации информационных ресурсов. Кроме того, большое значение, которое придается проблеме ИВРНО в рамках ФЦП "Интеграция" делает актуальным создание Интернет-портала методической поддержки работ в области высокопроизводительных вычислений с анонсированием типовых аппаратно-программных и технологических решений, существующих и разрабатываемых стандартов, новостным блоком, дискуссионным форумом и другими присущими Web-порталам элементами. В рамках выполнения проекта осуществлена разработка проблемно-ориентированной поисковой машины по проблеме ИВРНО, базирующейся на принципах построения объектно-ориентированных распределенных информационных хранилищ слабоструктурированных ресурсов с Интернет доступом. Создано алгоритмическое и программное обеспечение информационного хранилища по проблемам ИВРНО, понимаемого как совокупность разнородных информационных ресурсов, хранящихся на различных сайтах сети Интернет, объединенных единой системой администрирования, метаописания, атрибутно-контекстного поиска и аналитической обработки. Разработана модель информационного хранилища, соответствующая стандарту X500. Показано, что реляционные модели плохо приспособлены для представления графовой модели каталога в X500. Предложена более эффективная по скорости выполнения запросов и простоте использования объектно-ориентированная модель каталога. Сам каталог реализован как в виде объектно-ориентированной базы данных, так и в виде совокупности XML-файлов. XML - реализация позволяет строить открытые каталоги информационных ресурсов по проблеме ИВРНО на различных Интернет-сайтах и естественным образом организовывать обмен информацией между ними. С учетом принятой объектно-ориентированной модели данных информационного хранилища, может быть предложена следующая структура программного обеспечения информационного Интернет-хранилища: ћ подсистема управления каталогом; ћ подсистема управления информационными ресурсами; ћ система автоматической каталогизации; ћ система объединения хранилищ; ћ система атрибутно-контекстного поиска. Первые четыре из них относятся к системе администрирования информационного хранилища, в то время как последняя обеспечивает обработку всего спектра клиентских запросов к информационному хранилищу. Все программные модули системы построены на базе технологии сервлетов. Система управления каталогом служит для создания и администрирования каталога информационного хранилища. Она должна обеспечивать создание, перемещение и удаление узлов каталога, присвоение имен узлам каталога (и изменение этих имен в случае необходимости), проверку корректности графа каталога и используемых имен и ряд других вспомогательных функций. Задача системы управления информационными ресурсами состоит в обеспечении присвоения каждому информационному ресурсу в хранилище корректного значения атрибутов, определяющих, во-первых, его местонахождение в каталоге, а во-вторых - его описание. Первая задача может быть решена либо с помощью процедуры автоматической рубрикации информационного ресурса либо с помощью ручной процедуры рубрикации. Автоматическая рубрикация описывается в следующем разделе и подразумевает, что для каждого узла дерева ресурсов (т.е. для каждой рубрики каталога) задается набор ключевых слов и правил, позволяющих построить формализованную процедуру отнесения ресурса к той или иной рубрике (рубрикам) каталога. Ручная рубрикация предполагает работу эксперта с каждым определяемым ресурсом и его отнесение к той или иной рубрике в соответствии с решением эксперта. Система управления ресурсами в 'ручном' режиме должна позволять осуществлять присвоение информационным ресурсам как классификационных атрибутов (т.е. "привязку" информационных ресурсов к узлам дерева каталога), так и описательных атрибутов, изменение этих атрибутов, удаление атрибутов и ссылок на информационные ресурсы из базы данных и ряд других вспомогательных функций. В условиях интенсивного роста числа информационных ресурсов по проблемам ИВРНО в сети Интернет и их постоянного обновления большую роль играет автоматизация каталогизации информационных ресурсов и присвоения им адекватных значений классификационных атрибутов. Автоматическая система каталогизации (структура каталога приведена в следующем разделе) информационных ресурсов по проблемам ИВРНО, предложенная в проекте, основана на процедуре статистической оценки распределения вероятностей ключевых слов по обучающей выборке информационных ресурсов, классификация которых произведена экспертами. Система объединения хранилищ должна осуществлять экспорт каталогов в XML файлы, импорт XML файлов в базу данных каталога, определять непротиворечивость различных каталогов и строить общий каталог информационного хранилища на их основе. Задача системы поиска ресурсов состоит в определении по запросу клиента полного перечня информационных ресурсов хранилища, удовлетворяющих условиям поиска. Большинство поисковых Интернет-систем, реализует либо атрибутный (перемещение по рубрикам каталога), либо контекстный (распознавание слов содержащихся в тексте ресурса) поиск. Кроме того, поиск по атрибутам обычно сводится к перемещению по отдельным веткам дерева каталога. Поиск по нескольким атрибутам одновременно (как это делается в развитых базах данных) обычно не реализуется. В данной НИР предлагается реализация поисковой системы, совмещающей контекстный и атрибутный поиск, а также позволяющей осуществлять отбор значений нескольких атрибутов одновременно при перемещении по дереву каталога. В рамках выполнения проекта создана также система персонализации доступа к информационному хранилищу, позволяющая любому пользователю поисковой системы по проблемам ИВРНО сохранять результаты поиска в собственном отводимом ему на сервере каталоге, детализировать поиск, отслеживать изменения на интересующих его Интернет-сайтах, вести собственный архив-хранилище документов. Создан и поддерживается в актуальном состоянии Web портал по проблеме ИВРНО, доступный по адресу http://www.informika.ru/text/inftech/highcalc/ Портал содержит следующие основные разделы и подразделы:
1.4.2. База данных нормативных документов Для удобства ознакомления с нормативными документами, связанными с разработкой переносимых компьютерных программ, на сервере Центра открытых систем была создана база данных стандартов IEEE и ISO, касающихся информационных технологий и технологии открытых систем. Помимо номера стандарта и его названия на английской языке, в базе данных содержится гипер-ссылка на один из ресурсов сети Интернет, где можно более подробно ознакомиться с содержанием документа. В настоящее время база данных содержит 26 стандартов IEEE, и 93 стандарта ISO. Доступ к базе осуществляется по URL: http://www.cplire.ru/rus/casr/projects/centre/dbase.html |