Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.su/FBB/year_03/doc/term3/Practice12.doc
Дата изменения: Tue Nov 30 15:45:12 2004
Дата индексирования: Tue Oct 2 00:20:18 2012
Кодировка: koi8-r

Практикум 12
Сравнение разных способов оценки эволюционных расстояний между
нуклеотидными последовательностями

0. В рабочей директории создайте новую рабочую книгу Excel "Dist.xls",
содержащую 2 листа. Первый лист назовите "Dist_data", а второй
("Dist_comparison".

1. Разберитесь с названиями мутантных нуклеотидных последовательностей
Названия последовательностей должны быть обязательно разными,
желательно, короткими,
не используйте названия, состоящие из одних цифр. Пример возможных
названий ( ААА,
ВВВ..
В отчете за прошлое занятие создайте копию Вашего дерева и на ней
переименуйте узлы .
Переименуйте файлы с последовательностями, например, так, AAA.embl,
BBB.embl..
Исправьте названия последовательностей внутри файлов.
На новом дереве приведите расстояния в пересчете на 100 нуклеотидов.

2. Оцените «истинные» попарные эволюционные расстояния в Вашей
эволюционной модели.
Для этого на листе "Dist_data" создайте таблицу вида:

| |Seq_name1 |Seq_name2|Seq_name3|... |
|Seq_name1|0 |85 |40 | |
|Seq_name2| |0 |15 | |
|Seq_name3| | |0 | |
|.. | | | | |


В таблице приведите число мутаций, разделяющих последовательности. Для
сравнения с другими данными придется приводить число мутаций на 100
нуклеотидов.
Назовите таблицу «Истинные расстояния в моей модели: число точечных замен
на 100 нуклеотидов»)
Приведите расстояния между всеми узлами Вашего дерева, включая
исходную
последовательность.

3. Постройте множественное выравнивание всех последовательностей.
Выравнивании не должно содержать гэпов, т.к. Ваша модель не
предусматривала ни вставки, ни делеции.

Для этого используйте программу emma пакета EMBOSS.
Подсказка:
Создайте на pvm свою временную рабочую директорию. Скопируйте в нее
все файлы с
нуклеотидными последовательностями.
Вызовите программу emma c параметрами, практически запрещающими
гэпы, например,
-gapc=100.0 -gapv=10.0. Файлы с последовательностями можно задать,
используя маску
*.embl. Программе можно также задать список файлов, который
нетрудно создать с
помощью команды Unix ls ....>listfile. Проверьте, чтобы в
выравнивании
действительно не было гэпов.

4. Постройте матрицу попарного совпадения (% идентичности).
Для этого используйте программу distmat пакета EMBOSS, используя
пункт 0 меню
( uncorrected distances). Полученный файл скопируйте в рабочую
директорию. Матрицу из
него перенесите на первый лист книги "Dist_data" и назовите ее
«Матрица попарного сходства:
среднее число совпадающих нуклеотидов на 100 позиций»

5. Постройте матрицу попарных расстояний, вычисленных по формуле Джукса
- Кантора.
Используйте программу distmat пакета EMBOSS, выбрав
соответствующий пункт меню.
Полученную матрицу также перенесите на первый лист рабочей книги
и назовите "Матрица
попарных расстояний, вычисленных по методу Джукса - Кантора".

6. Превратите каждую из 3-х матриц попарных расстояний в таблицу
следующего вида:
|Имя пары |Истинное |
| |расстояние |
|ААА_ААА |0 |
|ААА_ВВВ |35 |
|ААА_ССС |78 |


Такие таблицы сохраните на отдельных, дополнительных листах
книги.
В конце документа Вы найдете подсказку, как это можно сделать
(один из возможных способов,
но похоже, позволяющий избежать ошибок)

7. Построение диаграмм
Скопируйте все 3 таблицы, получившиеся в п.6, рядом на лист
"Dist_comparison". Проверьте,
чтобы в каждой строчке оказались три одинаковых пары. Затем
уберите лишние столбцы с
именами пар и получите таблицу вида:

|Имя пары |Истинное | %Id | Jukes - |
| |расстояние | |Cantor |
|ААА_ААА |0 |0 |0 |
|ААА_ВВВ |35 |42 |67 |
|ААА_ССС |78 |70 |67 |

Просортируйте всю таблицу по убыванию «истинных расстояний»

По полученным данным постройте
а) точечную диаграмму, по оси X - названия пар, по оси Y - все 3
расстояния;
б) график зависимости 2-х оценок расстояния от величины «истинного»
расстояния.

Опишите свои наблюдения.

Как переделать матрицу попарных расстояний в данные для построения
графика, т.е. в таблицу вида имя пары - расстояние ?

1. Скопируйте таблицу с транспонированием на отдельный лист книги,
назовите лист «ххх_tmp», где ххх - имя матрицы.

2. Справа создайте такую же таблицу , в непустых ячейках которой
значения расстояний будут заменены на имена пар, например, (Seq1Seq2).
Для этого сначала создайте вторую копию таблицы, а затем используйте
текстовую функцию сцепления подстрок (concatenate). Придется
использовать как относительные (например, А1), так и абсолютные ссылки
(например, $А$1). Проверьте соответствие таблиц!

3. В каждой таблице выделяете непустые ячейки второго столбца с
расстояниями (или именами пар) и копируйте в конец первого столбца с
расстояниями (или именами пар).
Затем в конец получившихся столбиков скопируйте непустые ячейки
третьих столбцов и т. д.
Внимание, ячейки с именами пар надо копировать, сохраняя только
значение!

4. Соберите вместе получившиеся 2 столбца и просортируйте их вместе по
именам пар.
|Имя пары |Seq1Seq2 |.. |
|последовательност| | |
|ей | | |
|Расстояние |250 |.. |