Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.fbb.msu.ru/FBB/StudentScience/diplom_2006/Nikolaev.doc
Дата изменения: Wed Dec 14 17:57:23 2005
Дата индексирования: Tue Oct 2 12:18:19 2012
Кодировка: koi8-r

Тема: Использование методов линейной алгебры для анализа биологических
банков данных

Кураторы:
В.В.Галатенко (vgalat@castle.nmd.msu.ru) механико-математический факультет.
В.К.Николаев (nik@genebee.msu.su), GeneBee группа.
932-88-25, комната 234, Лабораторный корпус "А"

Предлагаемая тема предполагает умение или, по крайней мере, желание
научиться программировать. Помощь и консультации по программированию
гарантируются.



В настоящее время все больший интерес привлекают задачи биоинформатики,
связанные не с отдельными последовательностями или функциями, а с большими
банками информации. При этом изучаются такие вопросы, как возможность
нахождения противоречий в базе, а также возможность автоматического
пополнения базы данных без привлечения дополнительной информации. Задачи
такого рода актуальны, например, при работе с информацией о большом наборе
или даже о наборе всех генов организма.

В 2005 году американскими учеными P. Kharti, B. Done, A. Rao, A. Done и
S. Draghici был предложен полностью автоматический способ решения задач
такого рода ("A semantic analysis of the annotations for human genome",
Bioinformatics, 21 (16), 3416-3421). Способ, опирающийся на изучаемые в
линейной алгебре понятия собственных чисел и собственных векторов, был
применен ими для анализа базы данных о функциях генов человека и показал
достаточно хорошие результаты. Однако теоретического обоснования метода
осуществлено не было. Также (в некотором смысле) не была использована вся
потенциальная мощь предложенной идеи.

Представляется интересным развить идею об использовании методов
линейной алгебры для анализа некоторых биологических банков данных,
реализовать соответствующую процедуру, применить ее к различным банкам
данных (рассматривающим взаимосвязи ген-функция, ген-ген, например, к
банкам данных GOA Human, GOA Mouse, GOA Chicken) Кроме того, интересным
является поиск теоретического обоснования метода, выделение его
"биологического фундамента". Это может позволить применить этот же метод
для автоматического решения некоторых других задач, например, для
определения цепочек взаимодействия (pathway'ев).


Тема: Совершенствование AliBee - Алгоритма Множественного Выравнивания.

Кураторы:
В.В.Галатенко (vgalat@castle.nmd.msu.ru) механико-математический факультет.
А.М.Леонтович (aml@genebee.msu.su) отдел математических методов в биологии.

В.К.Николаев (nik@genebee.msu.su), GeneBee группа.
932-88-25, комната 234, Лабораторный корпус "А"

Предлагаемая тема предполагает умение или, по крайней мере, желание
научиться программировать. Помощь и консультации по программированию
гарантируются.



Процедуры построения множественных выравниваний последовательностей
играют важную роль в современной биоинформатике. Эти процедуры
используются, например, при автоматическом аннотировании
последовательностей. В 90-е годы группа GeneBee разработала процедуру
AliBee, решающую именно задачу множественного выравнивания
последовательностей. В реализованной процедуре использован ряд уникальных
методик, что значительно отличает ее от аналогичных процедур других
авторов. Процедурой AliBee в настоящее время широко пользуются как в
России, так и за рубежом.

Несмотря на существенный возраст AliBee, процедура на многих классах
задач не уступает, а на некоторых задачах даже превосходит современные
аналоги. Исключением является класс задач, в котором необходимо выравнять
несколько существенно различных групп сходных последовательностей. В связи
с этим представляется интересным и очень полезным усовершенствовать стадию
оптимизации выравнивания AliBee: учитывать на этой стадии филогенетическое
дерево, построенное по выравниваемым последовательностям. Полученный блок
можно будет использовать как часть процедуры AliBee, так и независимо.
Тестирование предполагается осуществлять на базах данных эталонных
множественных выравниваний, созданных специально для оценки качества
выравнивающих алгоритмов (BAliBASE и др.).

Задача представляет как сугубо практический, так и теоретический
интерес. В частности, интересным является вопрос выбора оптимального для
поставленных целей филогенетического дерева.


Тема: Разработка и реализация метода "взвешивания" столбцов при построении
и анализе выравниваний

Кураторы:
В.В.Галатенко (vgalat@castle.nmd.msu.ru) механико-математический факультет.
В.К.Николаев (nik@genebee.msu.su), GeneBee группа.
932-88-25, комната 234, Лабораторный корпус "А"

Предлагаемая тема предполагает умение или, по крайней мере, желание
научиться программировать. Помощь и консультации по программированию
гарантируются.



Процедуры построения выравниваний (множественного выравнивания,
выравнивания профилей, выравнивания последовательности против профиля)
играют важную роль в биоинформатике. Эти процедуры используются, например,
при решении задач автоматического аннотирования. Улучшение процедур
построения выравниваний автоматически повышает качество программ,
опирающихся на эти процедуры. В связи с этим усовершенствование процедур
построения выравниваний имеет крайне высокую практическую ценность.

Одним из общих недостатков современных процедур для построения
выравниваний является "равноправный" учет ими всех столбцов выравнивания
при осуществлении различных оценок. К ошибкам выравниваний приводит тот
факт, что один хороший столбец может быть "перевешен" десятком "плохих".

Предлагается разработать и реализовать метод "взвешивания" столбцов
профилей, позволяющий избежать или по крайней мере уменьшить существенность
приведенной проблемы. Такой метод будет несомненно представлять интерес,
так как позволит минимальными изменениями улучшить многие существующие
процедуры построения выравниваний.

Тестирование планируется осуществлять с использованием банка данных
PROSITE. PROSITE будет также являться одним из объектов для приложения
разработанной в результате проекта процедуры, с помощью которой можно будет
уточнить некоторые профили семейств, хранящиеся в этом банке данных.

Тема: Улучшение алгоритма адаптивного автоматического аннотирования
последовательностей

Кураторы:
А.М.Леонтович (aml@genebee.msu.su) отдел математических методов в биологии.

В.К.Николаев (nik@genebee.msu.su), GeneBee группа.
932-88-25, комната 234, Лабораторный корпус "А"

Предлагаемая тема предполагает умение или, по крайней мере, желание
научиться программировать. Помощь и консультации по программированию
гарантируются.



Записи, содержащиеся в банках (SWISS-PROT, EMBL, .), помимо первичных
последовательностей, включают в себя описания (аннотации) этих
последовательностей. Такие аннотации обычно создаются с помощью
экспериментального изучения структуры и функций последовательностей.
Важной является задача автоматического аннотирования, то есть предсказания
структуры и функций последовательности исходя из уже имеющейся в банках
информации о других последовательностях.

Алгоритм адаптивного автоматического аннотирования, разработанный в
GeneBee группе (http://www.genebee.msu.su/services/annot/basic.html),
обладает высоким качеством предсказания. Имеется ряд подходов (разной
степени сложности), которые могут его улучшить:
1. Недостаточно качественные банковские описания являются одной из
причин ошибок предсказания. Например, в описаниях, составленных разными
людьми, одни и те же понятия описываются по-разному. Такие ошибки можно
исправить с помощью строгого «лингвистического» анализа банковских
описаний, что и является предметом предлагаемой работы.
2. В имеющейся процедуре предсказания, относящиеся к разным элементам
описаний или к разным позициям последовательности, выполняются независимо
друг от друга. На самом деле часто они являются зависимыми. Разработка (и
программная реализация) статистической модели, учитывающей такие
зависимости, является второй предлагаемой темой.

Имеется ряд других (разной степени сложности) задач, по этой теме.

Предлагаемые работы имеют перспективу на дальнейшее развитие, то есть
на темы для работ на следующих курсах.


Bioinformatics Vol. 18, no. 6, 2002, pp 838-846, Adaptive algorithm of
automated annotation, A.M.Leontovich, L.I.Brodsky, V.A.Drachev and
V.K.Nikolaev.