Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.abitu.ru/en2002/closed/viewwork.html?thesises=102
Дата изменения: Fri May 5 15:24:28 2006
Дата индексирования: Tue Oct 2 03:15:03 2012
Кодировка: koi8-r


Программа поиска сложносоставленной вариабельной матрицы в геноме.


ЗАДАЧА


Разработать программу для поиска сложносоставленной вариабельной текстовой
матрицы в большем объеме данных. В конкретном случае программа настроена на
анализ геномной последовательности, представленной в формате NCBI.



ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ


Программа использована для поиска сложнопостроенных сигнальных
последовательностей рекомбинации (Recombination Signal Sequence (RSS)) в
пределах генома человека.



МЕТОДЫ РЕШЕНИЯ


Для работы программы требуется файл с информацией о строении матрицы.
Конкретно в этом файле описаны три части матрицы: левая часть, размер
промежутка и правая часть. Вся матрица не может превышать по своему объему
100 п. н. Принцип поиска таков: из геномной последовательности выделяется
фрагмент кода размером в 70 т. п. н. В этом фрагменте ведется поиск одной
из допустимых последовательностей левой части матрицы. При нахождении
таковой в программе фиксируются координаты начала этой последовательности и
координаты конца, вычисляемые как начало + размер последовательности. После
этой процедуры, вырезается фрагмент, стоящий на расстоянии допустимого
интервала после конца первой последовательности (левой), размером равным
размеру допустимой последовательности правой части матрицы. После
начинается сравнение вырезанной последовательности со списком допустимых
последовательностей правой части матрицы. При совпадении на экран выводится
сообщение о совпадении, а в файл отчета заносится информация о данной
матрице: имя файла сиквенса хромосомы, номер локуса, координаты начала,
интервал, краткая запись матрицы, и фрагмент сиквенса хромосомы размером
2,2 т. п. н. и началом в точке -1 т. п. н. от начала матрицы. После
продолжается процесс поиска допустимых последовательностей правой части
матрицы. В случае, когда допустимые последовательности правой части матрицы
закончатся, процедура начинается заново с поиска следующей допустимой
последовательности левой части матрицы. В случае, когда допустимые
последовательности левой части матрицы закончатся, активный фрагмент
сиквенса генома обрезается с начальной точки до размера 100 п. н. и далее к
нему добавляется следующая часть генома, пока размер фрагмента не достигнет
70 т. п. н. После чего процедура поиска начинается с самого начала. Данный
алгоритм реализован на языке C++, на компиляторе Borland.

* п. н. - пара нуклеотидов.

АНАЛИЗ ДАННЫХ


По полученным данным можно построить карту локализации данных RSS на
геноме. Программа создана для проверки теории, которая заключается в том,
что белки RAG1, RAG2 (Recombination Activating Gene), которые воспринимают
RSS, могут функционировать за пределами генов иммуноглобулинов. Эта
активность может приводить к обширным генным перестройкам, которые могут
провоцировать раковые заболевания.



ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА


http://obi.img.ras.ru/ - информация по иммунологии

http://ncbi.nih.gov/ - геномные сиквенсы