Проблема формирования баз данных по химическим реакциям
М.С. Молчанова, С.С. Трач, Н.С. Зефиров
Институт органической химии им. Н.Д. Зелинского РАН
Московский государственный университет, химический факультет
mary@lexa.ru
Известны и широко используются многочисленные базы данных по
органическим структурам и программы для работы с ними.
В то же время проблема создания баз данных, пригодных для
автоматизированной обработки информации по органическим реакциям, до
сих пор не полностью решена. Это связано прежде всего с
неоднозначностью большинства используемых компьютерных представлений
реакций, а также с тем, что для разных целей исследователями
применяются различные и часто несовместимые между собой классификации
органических превращений [1]. За последние десятилетия зарубежные
исследователи предложили несколько систем однозначной кодировки
реакций (см., например, [2]), однако ни одна из них не получила
широкого распространения.
В рамках формально-логического подхода к описанию
взаимопревращений органических соединений нами предложена концепция
иерархического кодирования реакций [3], позволяющая получить
однозначное и весьма компактное представление информации о
перераспределении связей в ходе реакций. Существенными достоинствами
предлагаемой концепции являются возможности ее использования (а) для
кластеризации реакций в базах данных на основе степени их сходства
и различия и (б) для оценки степени "новизны" тех или иных химических
превращений по сравнению с уже имеющимися в базе.
[1]. S. Fujita. J. Chem. Inf. Comput. Sci., 1987, v. 27, pp. 120-126.
[2]. J. Brandt, A. von Scholley, M. Wochner. Comput. Phys. Commun.,
1987, v. 33, pp. 197-203.
[3]. S.S. Tratch, N.S. Zefirov. J. Chem. Inf. Comput. Sci.,
1998, v. 38, pp. 349-366.