Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.abitu.ru/en2002/closed/viewwork.html?thesises=259
Дата изменения: Fri May 5 15:24:54 2006
Дата индексирования: Tue Oct 2 03:46:38 2012
Кодировка: koi8-r

Секция: информатика

Школа ?1134, г. Москва ул. Раменки 15/1, тел. 932-0000, E-mail: sch1134@mtu-
net.ru


Название: Программа поиска прямых повторов и элементов зеркальной симметрии
в последовательностях нуклеиновых кислот и белков REPEATS.
Автор: Друца Алексей

Класс:11-Б

Адрес: г. Москва, ул. Раменки д.9 кв. 202.
тел.: (095)931-2768; E-mail: ay@supermail.ru

Научный руководитель: Королева Ольга Николаевна, старший научный сотрудник
Химического факультета Московского государственного университета им.
М.В.Ломоносова

Постановка задачи.
Целью данной работы было написание компьютерной программы для анализа
первичной структуры биополимеров (белков и нуклеиновых кислот) с целью
выявления прямых повторов и элементов симметрии, которые предположительно
могут выполнять регуляторную функцию в составе генома живых организмов.

Актуальность выбора задачи.
В последнее время, благодаря развитию методов быстрого определения
последовательности нуклеиновых кислот, накопилась огромная информация
(более 20 миллиардов нуклеотидов), требующая всестороннего анализа. При
работе с генетическим материалом возникают такого рода задачи: сравнение
однородных генов и белков различных организмов, поиск структурных
особенностей (повторов, элементов симметрии), выявление консервативных
участков и т.д. Ясно, что такие рутинные, но весьма трудоемкие операции
при «ручной обработке» требуют больших затрат времени, в то время как
специально созданные компьютерные программы могут существенно облегчить и
ускорить упомянутые процедуры. В последние два десятилетия такие программы
стали появляться, (например, MICROGENIE, BLAST). Однако они не
обеспечивают всех потребностей ученых, работающих в области молекулярной
биологии и генной инженерии. Поэтому перед современной биоинформатикой
стоит еще много задач, связанных с анализом генетических структур. В
частности, в структуре биополимеров встречаются несовершенные повторы,
которые могут быть связаны с определенной биологической функцией. Их
трудно выявлять с помощью доступных в настоящее время компьютерных
программ. В связи с этим в настоящей работе сделана попытка создания
программы, облегчающей такой поиск.
Методы решения.
В основу написания программы REPEATS положен известный метод
точечных матриц, в котором анализируемая последовательность располагается
горизонтально (по оси X) и вертикально (по оси Y). При этом если
нуклеотидный остаток в одной из позиций совпадает с остатком в другой
позиции, то на пересечении соответствующего горизонтального ряда и
вертикальной колонки появляется точка. Повторяющиеся в составе
анализируемой последовательности фрагменты будут выглядеть при этом как
кластер точек, параллельный основной диагонали матрицы. Однако большое
количество точек на матрице создает высокий «фон», затрудняющий выявление
нужных мотивов. Поэтому программа предусматривает «фильтрацию» результатов.
Для этого выбирается непрерывный «опорный» кластер точек (длина N > 3,
может задаваться пользователем) и далее анализируется прилегающая область:
осуществляется поиск несовершенных (прерывающихся) кластеров. Количество
несовпадений, а также допустимый сдвиг рамки (смещения) могут быть заданы
пользователем. В результате на экране остаются отмеченными только те
области, которые соответствуют достаточно протяженным несовершенным
повторам, удовлетворяющим заданным требованиям. Программа написана на
объектно-ориентированном языке Object Pascal в интегрированной среде
разработки Borland Delphi 7.0.

Полученные результаты.
Программа REPEATS позволяет быстро и легко находить несовершенные (в
том числе, перекрывающиеся) прямые повторы, а также зеркально симметричные
участки в пределах фрагментов нуклеиновых кислот и белков. Для этого:
а) осуществляется ввод анализируемой последовательности с клавиатуры
или из файла (например, .txt);
б) задаются параметры для построения двумерной матрицы (количество
несовпадений в пределах повтора и сдвиг рамки, минимальную длину ожидаемого
структурного элемента);
в) на следующем этапе программа осуществляет «фильтрацию» - селекцию
неслучайных достаточно протяженных повторов, допускающих пропуски и сдвиг
рамки (на 1-2 нуклеотида), - устраняя фоновые случайные совпадения
отдельных звеньев;
г) вывод на экран результатов поиска с возможностью масштабирования
матрицы и сохранения в отдельном файле;
д) протяженные участки, располагающиеся параллельно основной диагонали
матрицы, соответствуют прямым повторам, а перпендикулярные основной
диагонали - элементам зеркальной симметрии.
Программа также позволяет находить в нуклеотидных последовательностях
обращенные повторы (палиндромы), которые выглядят на матрице как
параллельные или перпендикулярные основной диагонали кластеры точек, в
зависимости от способа введения по оси Y не исходной, а комплементарной
нуклеотидной последовательности.
С помощью программы REPEATS проведен анализ более 50 фрагментов ДНК
(70-звенных), представляющих собой сигналы инициации транскрипции
(промоторы), узнаваемые ферментом РНК-полимеразой E.coli. В большинстве из
них обнаружены достаточно протяженные несовершенные (часто перекрывающиеся)
повторы, которые могут выполнять регуляторную функцию. Предположительно,
такие повторы служат местами контакта промотора с РНК-полимеразой и
отражают ее перемещение вдоль фрагмента на начальных стадиях инициации
транскрипции (синтеза матричной РНК).
Кроме того, в ряде проанализированных промоторов обнаружены участки
зеркальной симметрии, которые также могут играть регуляторную роль,
препятствуя, например, формированию в этой области элементов вторичной
структуры («шпильки», «кресты»).

Литература.
1. В.Э.Гофман, А.Д.Хомоненко. Delphi 5, "БХВ - Санкт-Петербург", г.
Санкт-Петербург, 1999 г;
2. L.M.Lagrimini, S.T.Brentano, J.E.Donelson, A DNA sequence analysis
package for the IBM personal computer. In "The applications of computers to
research on nucleic acids II", Part 2. (eds. D.Soll, R.J.Roberts), IRL
Press, Oxford, 1984, P. 605-614.
3. Н.А.Колчанов, В.В.Соловьев, А.А.Жарких в «Итоги науки и техники»,
Молекулярная биология, т. 21, Структура и эволюция геномов. М. 1985, (ред.
Ю.А.Овчинников), с. 6-37.
4. Математические методы для анализа последовательностей ДНК, (ред.
М.С.Уотермен), М., Мир, 1999.
5. М.С.Гельфанд, А.А.Миронов. "Вычислительная биология на рубеже
десятилетий"// Молекулярная билогия (1999), т. 33, с. 969-984.