|
|
|
Предлагается выбрать задание на Ваш вкус.
Для каждого задания указаны формат отчета и число баллов за минимально приемлемое выполнение + число бонусных баллов за высокое качество работы.
- Задание 1. Сравнить разные способы оценки эволюционных расстояний между нуклеотидными последовательностями.
Форма отчета HTML-страничка + файл *.xls Баллы: 2+2.
- Задание 2. Описать элементарные эволюционные события для случая 3-х замен в одном кодоне.
Форма отчета любая, от рукописного листа (с читаемым текстом!) до HTML-странички.
Баллы: 2+1.
- Задание 3.Сравнить давление отбора на разные гены
(работа с веб-сервером PAL2NAL)
Форма отчета HTML-странички. Баллы: 1+2.
Задание 1. Сравнение разных способов оценки эволюционных расстояний между 2-мя генами
- Cоздайте модель последовательной эволюции гена Вашего белка:
ген ХХ →mutant1→mutant2→mutant3→mutant4→mutant5→mutant6
На каждом этапе происходят только замены, число замен на последовательных этапах
("истинные" расстояния) положите, например, равным: 10, 10, 30, 25, 50, 50
на каждые 100 нуклеотидов .
Получите мутантные последовательности с помощью программы msbar
пакета EMBOSS, синтаксис:
msbar <infile> <outfile> -point 4 -count <общее количество замен> -auto
Не забудьте пересчитать число замен на полную длину гена!!
Напоминаем также, что команда msbar -help выдает подсказку на экран,
и Вы можете узнать, что значит "-point 4".
Здесь хорошо написать скрипт для получения сразу всех мутантов в одном файле.
Сделайте скрипт исполняемым, выполнив команду
chmod +x имя_скрипта
В результате нужно получить один файл со всеми последовательностями,
включая ген Вашего белка.
Следите, чтобы последовательности имели разные имена,
не используйте имена, не содержащие букв.
- Определите попарные эволюционные расстояния между всеми последовательностями (включая исходную) c помощью программы distmat пакета EMBOSS.
Синтаксис:
distmat -sequence <file name > -outfile <outfile name> -nucmethod <метод оценки> <номер метода, см. help>
На вход программе подается множественное выравнивание, но т.к. в Вашей модели были только замены, то просто файл с последовательностями и будет соответствовать биологически значимому выравниванию.
Выбирая соответствующие пункты меню программы, получите 2 матрицы попарных расстояний:
- матрицу попарных различий (D) (uncorrected distances);
- матрицу попарных расстояний, вычисленных по формуле Джукса - Кантора (JC)
- Cоздайте новую рабочую книгу Excel "Dist.xls", содержащую 2 листа c названиями "All_data" и "Comparison".
На стр. "All_data" создайте таблицу с "истинными" попарными расстояниями (число замен на 100 нуклеотидов:
|
Gene... |
Mutant1 |
Mutant2 |
:.. |
Gene... |
0 |
85 |
40 |
|
Mutant1 |
|
0 |
15 |
|
Mutant2 |
|
|
0 |
|
:: |
|
|
|
|
На эту же стр. "All_data" импортируйте данные из выходных файлов distmat.
Т.е. на странице должны быть 3 матрицы попарных расстояний: "истинных",
неоткорректированных расстояний или несовпадений (D) и расстояний по Джуксу - Кантору (JC)
Ваша следующая задача на стр. "Comparison" собрать все данные в единую таблицу вида:
Имя пары |
"Истинное" расстояние (T) |
Несовпадения (D) |
Jukes-Cantor (JC) |
Gene....Gene.... |
0 |
0 |
0 |
Gene_Mutant1 |
35 |
33 |
34 |
Gene_Mutant2 |
78 |
... |
... |
Один из возможных способов преобразовать матрицы расстояний в таблицу нужного вида можно найти в прошлогоднем задании ?12, пп.4-7 и подсказках к нему.
Отсортируйте всю таблицу по убыванию "истинных расстояний". По полученным данным постройте график зависимости 2-х оценок расстояния (D, JC) от величины "истинного" расстояния (T).
- В отчете (HTML-страничка) кратко опишите, что и зачем делали. Приведите ссылку на книгу Excel.
Приведите картинку с полученным графиком.
Опишите диапазон, в котором полученные оценки эволюционных расстояний близки к "истинным". Укажите, начиная с каких эволюционных расстояний полученные оценки сильно отклоняются от реального числа эволюционных событий. Сделайте выводы.
Задание 2. Описать элементарные эволюционные события для случая 3-х замен в одном кодоне.
Заданные исходный и конечный кодоны см. здесь.
Изобразите в виде схемы все возможные минимальные пути превращения первого кодона во второй, не проходящие через стоп-кодоны.
Для вдохновения посмотрите слайд ?20 презентации к данному занятию. Что должно быть на схеме?
- Исходный, все промежуточные и конечный кодон, пути отмечены стрелками.
- Под каждым кодоном соответствующая аминокислота.
- Под исходным и под каждым промежуточным кодоном число синонимичных и несинонимичных сайтов.
- Для каждой замены укажите, синонимичная ли она или несинонимичная.
Определите среднее значение Ka (числа несинонимичных замен на 1 несинонимичный сайт) по всем возможным путям.
Определите среднее значение Ks(числа синонимичных замен на 1 несинонимичный сайт) по всем возможным путям.
Обращаем внимание, что задание состоит не только в выполнении предлагаемых действий, но и в изобретении схемы, иллюстрирующий результат. Будет принята любая четкая и читаемая схема "от руки", а бонусные баллы за оформление предназначены за схемы в формате *.doc или *.html. При этом не надо создавать чересчур сложных документов, чем проще и яснее схема, тем лучше!
Задание 3.Сравнить давление отбора на разные гены (работа с веб-сервером PAL2NAL)
- Откройте страничку PAL2NAL, разберитесь, что делает эта программа.
- Создание выборок белков и их генов.
С помощью программы blastP найдите в UniProt потенциального гомолога Вашего белка с ID около 70-80%, обратите внимание на то, чтобы последовательности выравнивались по всей длине, желательно также, чтобы новая последовательность была аннотирована (названа) так же, как и Ваш белок (возможно, что Вы уже такой белок находили во втором семестре).
Получите новую а.к. последовательность и последовательность соответствующего гена.
Постройте попарное выравнивание Вашего белка и его гомолога, сохраните его в формате FASTA или CLUSTAL. Файл назовите Р1.aln. Соответствующие гены (без выравнивания!!) сохраните в файле G1.fasta В таблице указаны АС 2-х генов, получите их последовательности, а также последовательности соответствующих белков. Последовательности генов сохраните в файле G2.fasta, а попарное выравнивание соответствующих белков в файле P2.aln
- С помощью PAL2NAL получите выравнивание генов с разбивкой на кодоны сначала для генов из файла G1.fasta, а затем из файла G2.fasta. Странички с выравниваниями сохраните в рабочей директории .
- С помощью PAL2NAL получите значения Ka/Ks для генов из G1.fasta и для генов из файла G2.fasta. Странички с результатами сохраните в рабочей директории public_html.
Какие опции в меню "Option settings" пришлось выбрать,чтобы программа посчитала Ka/Ks?
-
В протоколе, оформленном как HTML-страничка, кратко опишите, что делали. Прикрепите странички с результатами. Сравните результаты для генов из файла G1.fasta с результатами для генов из файла G2.fasta. Сделайте выводы.
|