|
[ На предыдущую главу]
Программно-технологические средства информационной системы -
генератора проблемно-ориентированного ресурса
В соответствии с блок-схемой рис. 3 работы [1] на входе системы мониторинг мировых информационных ресурсов издательств, патентных организаций, информационных центров организаций и ведомств, библиотек, интернет-сайтов и др. заключается в проведении систематизированного поиска-отбора и регистрации документов из всех доступных потоков информации по мембранным технологиям (срезы: материалы - свойства и получение, характеристики мембран и процессов, расчетные модели и проектирование модулей и мембранных процессов, применение и экономические характеристики и т.д.), включая:
- публикации и патенты в бумажных изданиях (патенты, периодика, отдельные издания, монографии и др.);
- электронные версии бумажных публикаций и патентов (библиографическое описание-содержание, резюме, цитируемая литература, полные тексты);
- научно-технические отчеты;
- электронные журналы - CD/Интернет (библиографическое описание-содержание, резюме, цитируемая литература, полные тексты);
- нормативно-правовая и справочная документация (бумажные и/или электронные версии);
- рекламно-коммерческие публикации (бумажные и электронные обзоры, проспекты, каталоги и др.);
- веб-страницы на специализированных сайтах в Интернете.
Результатом такого мониторинга на 'ВХОДЕ' АСИО является формирование метабанка проблемно-ориентированных информационных ресурсов/URL (Uniform Resource Locator). В Приложении в контексте мембранных технологий дано продолжение начатого ранее [1] обзора соответствующих URL для доступа к интернет-ресурсам.
Отбор и регистрация документов на 'ВХОДЕ' служит основанием для их 'ИМПОРТА' в АСИО, при этом метабанк рассматривается как систематизированный ресурс информационных запросов, обеспечивающий полноту и целостность импортируемых данных.
В ходе импорта, с одной стороны, в рамках операционно-технологической БД (ОТБД) решаются задачи подготовки массивов документов для их последующей переработки (реферирования, индексирования, редактирования, экстракции и формализации фактографических данных). С другой стороны, идет формирование ресурса (хранилища/библиотеки) перерабатываемых документов. При этом бумажные документы в рамках технологического цикла загрузки могут быть:
- унифицированы до электронных документов (оцифрованы, распознаны с выделением текстовых компонентов и связанных графических объектов-рисунков);
- связаны с соответствующими известными документальными данными, например, с библиографическим описанием и/или резюме из внешней БД метабанка информационных ресурсов;
- непосредственно использоваться для ввода релевантных данных в ОТБД.
Метабанк и архив-хранилище перерабатываемых документов являются важными ресурсами, готовыми для непосредственного использования в системе информационного обеспечения научно-практических разработок в области химии и химической технологии. Естественно, что степень информационной обработки (реферирования, индексирования, экстракции, формализации и унификации фактографии) для многих исходных документов из отбираемых проблемно-ориентированных массивов не всегда бывает достаточной для организации как их хранения в виде первичного информационного ресурса, так и тем более для генерации вторичных информационных ресурсов (печатных и электронных изданий, информационно-программных продуктов, регистрационных, документально-библиографических и фактографических БД). Немаловажное значение имеют и различные формы представления реферативно-аналитической информации на национальных языках. В рамках АСИО необходимый уровень переработки исходных документов достигается с использованием ОТБД и соответствующих автоматизированных рабочих мест (АРМ):
'Регистрация' - для проведения работ по загрузке и регистрации-индексации в БД материалов входного потока информации.
'Экстракция ' - для проведения работ по разборке и экстракции информации из индексированных документов в соответствии со списками определенных в БД элементов данных, соответствующими регистрируемым формам представления обрабатываемых документов (одной или нескольким локальным формам для каждого из документов).
'Формализация документов' - для проведения работ по переработке информации, соответствующей элементам данных различных, в том числе и промежуточных форм представления обрабатываемых документов:
- 'Текст' - распознавание/импорт/редактирование/набивка записей элементов данных обрабатываемых документов в форматах 'ASCII', 'ANSI', 'Word' и/или 'EXCEL';
- 'Графика' - импорт/редактирование графики элементов данных обрабатываемых документов;
- 'Объекты' - импорт/редактирование элементов данных, соответствующих объектам ('молекулярным данным', 'графическим данным' и др.), внедренным в обрабатываемые документы;
- 'Структурированный документ' - импорт/редактирование/набивка записей элементов данных обрабатываемых документов по устанавливаемому соответствию 'метки элементов структуры документа - метки элементов данных БД' формы представления структурированного документа в БД.
'Анализ и переработка' - для проведения работ по углубленной формализации и унификации информации, связанных с выявлением и регистрацией фактографических данных:
- 'Библиография' - перевод названий документов, формализация и унификация записей элементов библиографического описания обрабатываемых документов в соответствии с релевантными таблицами указателей (авторы, города, страны, названия источников данных и др.);
- 'Реферат-текст'
- перевод резюме и/или набивка текста реферата;
'Реферат-названия химико-технологических объектов (ХТО)' - восстановление/набивка систематических названий и синонимов ХТО (химических соединений, смесей, композитных материалов, реакций, процессов и аппаратов), релевантных обрабатываемым документам;
'Реферат-ХТО' - восстановление/импорт/набивка структурных представлений (определений) ХТО, релевантных обрабатываемым документам;
'Реферат-ХТО-элементы категорированных фактографических данных' - установление/регистрация связи ХТО, релевантных обрабатываемым документам, с определенными качественными характеристиками (классами свойств, термами активности, категориями опасности и др.);
'Реферат-ХТО-элементы количественных фактографических данных' - идентификация/определение элементов количественных данных и формирование соответствующих записей их значений и размерностей для ХТО, релевантных обрабатываемым документам;
'Реферат-обобщенная формализация ХТО' - ввод и первичный анализ структурной и релевантной фактографической информации по ХТО и их классам, задаваемым обобщенными представлениями (например, для химических соединений - формулами Маркуша, для технологических схем - преставлением в виде помеченных графов).
'Статистика и моделирование' - для проведения унификации, информационно-статистического анализа и прогноза/расчета фактографии по ХТО:
- 'Унификация' - для проведения работ по унификации определений категорированных данных и размерностей количественных данных по ХТО;
- 'Кластеризация' - для проведения факторного и кластерного анализа данных;
- 'Байес' - для байесовской классификации/прогноза категорированных данных для ХТО;
- 'Моделирование связи данных' - для нахождения моделей (реляционных, регрессионных, сходства, алгебраических, дифференциальных уравнений) данных и прогнозирования/заполнения 'пропущенных данных' по ХТО;
- 'Математические методы' - библиотека прикладных программ общего назначения (статистические методы, стандартные методы вычислительной математики, методы оптимизации).
'Технология' - рабочее место эксперта-администратора технологической БД для проблемно-ориентированного анализа, обобщения, реструктуризации, унификации, перевода и сборки новых баз данных по химии и информационных продуктов по химии и химической технологии.
На рис. 1 и 2 приведена схема ОТБД. ОТБД и АРМ (пользовательский интерфейс) обеспечивают импорт и обработку документов с электронных носителей. При этом элементы данных документов могут включать:
- полные электронные копии (сканы) страниц бумажных документов;
- электронные копии (сканы) определенных разделов бумажных документов (первой страницы/библиографии/содержания, резюме, списка литературы, рисунков и др.);
- текстовые компоненты документа (полный текст, библиографическое описание, резюме, ключевые слова и др.);
- электронные документы (PDF, Word, XML и др.);
- внедренные объекты электронных документов (рисунки, графика, молекулярные данные, модели и др.);
- документальные данные - формализованное библиографическое описание, реферат, ключевые слова документа;
- фактографические данные - характеристики, свойства и модели данных формализованных объектов документа.
Каждому типу документа (см. рис. 1) соответствует как минимум одна индексируемая форма (1, 3) его представления в БД. Допускаются как составные (по нескольким формам) документы, так и выборочные формы документов для хранения промежуточных результатов обработки первоисточников. Определение (индексация) элементов данных (3, 2) предполагает включение основного и нескольких коротких названий (меток) поля, соответствующих наиболее распространенным форматам хранения информации. Записи самих элементов данных документов в БД хранятся в таблицах (4), релевантных (6) зарегистрированным формам представления документов. При этом записи элементов данных индексируются с помощью соответствующих таблиц определений (6, 5), например, указателей авторов, изданий, городов, стран, ключевых слов и др. Специально выделяются индексируемые записи элементов данных по ХТО (7), категорированным (9) и количественным (11) данным с таблицами индексных указателей 8 (указатели названий ХТО), 10 (указатели категорированных данных (классов ХТО, термов свойств, эффектов, воздействий и др.)) и 12 (таблицы количественных данных), соответственно.
Реорганизация записей элементов данных с количественными данными по ХТО ( 11) в таблицы количественных данных (12) проводится с использованием пополняемых таблиц определений размерностей величин количественных данных (15). Это же относится и к моделям количественных соотношений данных для ХТО (16). В целом, модели данных по ХТО (14, 16) формализуются как специальные элементы данных (6) обрабатываемых документов (рис. 1, 2). В качестве атрибутов определения моделей и правил классификации и категорирования ХТО байесовской классификации и прогноза свойств (14) и количественных соотношений данных для ХТО выступают соответствующие атрибуты определения данных в указателях категорированных (10) и количественных данных (13). Зарегистрированные в ОТБД модели доступны для прогноза/восстановления данных для ХТО (7, 8). По мере накопления фактографии по ХТО зарегистрированные в БД модели обновляются, а при необходимости и по мере возможности генерируюся новые.
Программно-технологические средства ИС реализованы на основе СУБД MS SQL 7.0.
[ На следующую главу] [На Содержание]
Copyright ї
|
|
|