Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.fbb.msu.ru/FBB/year_09/term4/task6.doc
Дата изменения: Tue Mar 22 17:55:57 2011
Дата индексирования: Tue Oct 2 06:30:58 2012
Кодировка: koi8-r

Практикум 6.

Все скрипты запускать на kodomo, т.к. там лежат файлы Pfam, и скрипты
используют команды EMBOSS.

Дан домен по версии БД Pfam (назовем его домен A). Идентификатор домена
берется из списка. Можно заменить на любой собственный - если будут
соблюдены все условия на доменные архитектуры, см. ниже. У большинства
студентов указан один из доменов "своего" белка. Те, у кого свой белок
не подходит, выбирают произвольный из резерва.

Результат должен быть открыт на персональной страничке интернет.
Допускаются ссылки на файлы Excel, doc, msf и др. Срок - до следующего
вторника, 29 марта .


Для зачета необходимы следующие файлы:
- информация о всех последовательностях (выборка full в Pfam), содержащих
домен A (Excel)
- информация о последовательностях двух групп, составленных вами для
исследования (Excel, отдельный лист)
- выравнивание из Pfam , разбитое на две группы (msf формат)
- филогенетическое дерево (Рисунок и скобочная структура)
- отчет (на персональной странице или в doc формате)

Задание
1. Выбрать две доменные архитектуры с данным доменом (назовем их A + B
и A + C. Как выбирать - см. ниже)

2. Собрать данные для проверки гипотезы: слияние доменов, приведшее к
образованию данной доменной архитектуры, произошло в один раз и
передавалось по наследству .

3. Сделать вывод о том, подтверждается ли гипотеза, и обосновать его.

Какие доменные архитектуры взять.

Выбрать, по возможности, простые доменные архитектуры. Например,

(i) Первая доменная архитектура включает домена Pfam (назовем ее A+B)
(ii) Вторая доменная архитектура включает либо два домена (назовем ее A+C),
либо только домен A.

(iii) Должно быть не менее 10 (лучше - больше) последовательностей с каждой
из выбранных доменных архитектур; ограничения сверху нет (даже большое их
число не слишком усложняет задачу)

Какие данные следует получить и как это сделать.
1) Выборка из 12 (не более 15-20) последовательностей белков с каждой из
двух доменных архитектур (всего 20-30 последовательностей).

(i) Составьте таблицу доменных архитектур всех последовательностей,
содержащих домен A. Файл swisspfam, содержащий эту информацию для всех
последовательностей, скачан на kodomo (/srv/databases/pfam/swisspfam.gz).
Для отбора нужных вам последовательностей используйте скрипт
swisspfam_to_xls.py (python swisspfam_to_xls.py -h для изучения списка
параметров)

Скрипты лежат в директории ./y09/Term4/Python_scripts

(ii) Составьте список последовательностей с указанием доменной архитектуры.
Используйте сводную таблицу в Excel: строки - последовательности, столбцы -
домены Pfam.

(iii) В список последовательностей добавьте колонку с информацией о
таксономической принадлежности (царство, вид). Таблицу кодов видов,
используемых в идентификаторах Uniprot (скачанную с сайта
http://pir.uniprot.org/docs/speclist и приведенную в удобный вид) найдете в
файле Species_codes_out.xls (на kodomo в директории Materials).
Используйте меню "Текст по столбцам" в Excel что получить код вида из
Uniprot ID (например, LACI_BACSU превратить в два поля: LACI и BACSU;
колонку с LACI_BACSU следует оставить - понадобится далее). Используйте
команду ВПР (vlookup в агл.версии Excel), чтобы перетащить данные из
Species_codes_out.xls в свою таблицу.

(iv) Добавьте колонку с длиной домена A в каждой последовательности .

(v) Добавьте колонку для отметки последовательностей с каждой из двух
выбранных доменных архитектур.

(vi) Выберите по 12 (или чуть больше) последовательностей из каждой
архитектуры и отметьте их в еще одной колонке. Следите
- за тем, чтобы домены в выбранных последовательностях имели
примерно одинаковую длину (так уменьшается риск взять фрагмент или
неправильно выровненную последовательность);
- за тем, чтобы не получился перекос по таксонам - филогенетический
след; так, если и в геномах бактерий, и в геномах архей представлены обе
доменные архитектуры, неправильно было бы взять всех представителей
доменной архитектуры A+B из бактерий, а B+C - из архей.

2) Общее выравнивание двух групп последовательностей в пределах домена.
Выравнивание берется из БД Pfam.
(i) Скачайте выравнивание Full из БД Pfam, страница Alignments =>
generate; следите за форматом.
(ii) Оставьте в выравнивании только нужные вам последовательности из двух
групп. Используйте скрипт filter_alignment.py (python
filter_alignment.py -h для изучения списка параметров) .
(iii) Проверьте, отредактируйте и разметьте выравнивание с помощью
GeneDoc:

- удалите пустые колонки, если таковые найдутся (Edit => Clear gap
columns);
- создайте две группы, A+B и A+C (Groups => Edit sequence groups =>
New group => Add и т.п. Поставьте галочку в квадратике Color sequence
names)[1];
- переставьте последовательности так, чтобы группы шли подряд (Project
=> Edit sequence list .);
- исправьте ошибки выравнивания:
удалите N-концевые и/или C-концевые участки в том случае,
если в них, очевидно, нет хорошего выравнивания;
удалите те последовательности, которые явно не выровнены
правильно
- раскрасьте по консервативности внутри групп (Groups => Shade group
configuration)


3) Филогенетическое дерево.

(i) В выравнивании перед идентификаторами последовательностей вставьте
признак группы, и если сочтете нужным, таксона (например, было
A35Q7A_BACSU, стало 1_ A35Q7A_BACSU; было BXS23_ECOLI, стало 2_A_
BXS23_ECOLI; здесь 1 и 2 - номера групп, A = археи). В Gendoc можно это
сделать так: Project => Edit sequence list => Details; можно
отредактировать в fasta формате.

(ii) Постройте филогенетическое дерево методом "neighbor joining" (команды
fprotdist и fneighbor ).

(iii) Измените расширение файла со скобочной структурой на .tre (чтобы MEGA
понимала)

(iv) Откройте дерево программой MEGA. Рекомендуемый вид - Radiational.
Выделите цветом (или еще как-нибудь) группы.

(*) Какие дополнительные данные могут помочь для обоснования гипотезы.

(i) Статьи про ваш домен (Pubmed).

(ii) Более детальный отбор представителей по таксонам; выбор таксона
"среднего уровня", в котором представлены последовательности двух групп в
приемлемом - небольшом - числе.

(iii) учет паралогов - ортологов

Что должно быть в отчёте.
- идентификаторы и название домена A в Pfam. Название следует перевести на
русский
- число последовательностей с данным доменом, число видов, в которых
обнаружены такие пследовательности, то же - по царствам: эукариоты, археи,
бактерии, вирусы.
- ссылка на страницу Pfam; (*) плюс краткое описание домена на русском
языке
- две доменные архитектуры, выбранные для работы; (*) чем они вас
заинтересовали
- обсуждение филогенетического дерева и выводы


Примеры использования скриптов.
1) Хочу получить все последедовательности, содержащие домен PF01541. На
kodomo выполняю команду

python swisspfam_to_xls.py -i /srv/databases/pfam/swisspfam.gz -o
PF01541.xls -z -p PF01541

жду 5-7 минут - файл swisspfam большой! - и получаю файл PF01541.xls
2) Скачал из Pfam выравнивание PF01541_full.fasta - всего 3528
последовательностей! - и хочу оставить в выравнивании (для примера) 3
последовательности: Q26DZ5_9BACT, A0LZ46_GRAFK, A3U8X5_9FLAO. Делаю
текстовый файл selection, содержащий эти идентификаторы столбиком:
Q26DZ5_9BACT
A0LZ46_GRAFK
A3U8X5_9FLAO
На kodomo выполняю команду

python filter_alignment.py -i PF01541_full.fasta -o
PF01541_selection.msf -m selection -s -f -a '/'

и получаю выравнивание PF01541_selection.msf. Параметр -s говорит о
том, что входное выравнивание надо преобразовать в fasta с помощью seqret
(в данном примере файл и так в fasta, и можно было его не использовать);
параметр -f говорит о том, что я хочу получить выравнивание сразу в msf
формате (без него получил бы выравнивание в fasta). Параметр -a '/'
говорит о том, что идентификатор последовательности идет до знака "/" или
пробела; его надо использовать, так как в выравнивании из Pfam домены
идентифицируются так:
> Q26DZ5_9BACT/196-271 где после "/" идут координаты в
последовательности Uniprot.
А во входном файле selection я привел только идентификаторы Uniprot.

Если какие-нибудь проблемы со скриптами, то пишите автору - мне (ААл).
-----------------------
[1] Если в доменной архитектуре домен A присутствует два раза, то от каждой
последовательности в выравнивании окажется два домена A; предлагаю первый и
второй домены A в последовательности различать, т.е. сделать для них две
группы.