Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~da_shal/term3/protocol9.html
Дата изменения: Wed Dec 24 15:47:30 2008 Дата индексирования: Tue Oct 2 11:50:27 2012 Кодировка: |
Занятие 9.
1. Работа с программой getorf пакета EMBOSS
Создайте в своей директории файл с записью D89965 банка EMBL.
Entret embl:D89965 -auto
Выполните команду
tfm getorf > help
После изучения файла help запускаем программу
getorf –find 1 –table 11
Finds and extracts open reading frames (ORFs)
Input nucleotide sequence(s): d89965.entret
protein output sequence(s) [d89965.orf]:
-find задает тип поиска (1 - Translation of regions between START and STOP codons)
-table – таблица генетического кода (11 - Bacterial)
-minsize – наименьшая длина ORF, по умолчанию 30, этот пункт опускаем в командной строке.
Определим, какая из найденных открытых рамок соответствует приведённой в записи CDS.
>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
LTPWLRIQSTNPVQKYGA
В записи EMBL приведена синяя последовательность.
Определим также, какая из рамок соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL. Ссылка –
/db_xref="UniProtKB/Swiss-Prot:P0A7B8"
Последовательность белка
>uniprot|P0A7B8|HSLV_ECOLI ATP-dependent protease hslV;
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
Синяя часть совпадает с одним из найденных ORF:
>D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
IAIGS
Бросается в глаза несоответствие. Ладно, что мы ищем по геному крысы, используя код бактерий. Но! В аннотации генома организм Rattus norvegicus и ген называется «Rat Stomach Serotonin receptor-related gene», а соответствующий белок в swiss-prot – из E.coli и называется Heat shock protein hslV. Все ссылки на банк PDB тоже указывают на E.coli.
2. Поиск некодирующих последовательностей программой BLASTN
В имеется файл trna_ecoli.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Наша задача — определить, сколько гомологов каждой из тРНК находит программа BLASTN в трёх геномах (см. предыдущее занятие).
Этапы работы.
запустите программу blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — все три генома и установив табличный формат выдачи (опция "-m 8" или "-m 9" программы blastall).
blastall –blastn –d pm_st_xc –i trna_ecoli.fasta –o trna_blast.txt –m 8
Просмотрим выходной файл. Заметим, что если последовательность asnT нашлась 16 раз, то в выходном файле это слово встретится на 1 раз больше, так как у таблицы с этими находками будет соответствующий заголовок.
Придумайте, как (для данной последовательности из trna_ecoli.fasta) запустить grep так, чтобы на выходе получилось число — количество находок именно для данной последовательности.
grep "asnT" trna_blast.txt –c
31
“asnT” – выбранная последовательность,
Trna_blast.txt – файл для поиска,
-c показывать только число находок.
Создайте колонку из названий входных последовательностей командой
grep ">" trna_ecoli.fasta > names
Информацию из файла names импортируем в Excel.
Создадим скрипт из команд, выдающих число находок для каждой последовательности. Файл find.scr написан в редакторе Far, сохранен в соответствующем формате.
chmod +x find.scr – делаем файл исполняемым
./find.scr – запускаем скрипт
Получаем файл result.txt со столбцом цифр. Импортируем этот результат в Exel и удаляем или стираем содержимое файла (так как следующий скрипт запишет новые данные после уже имеющихся)
Повторим поиск, на этот раз указав порог на E-value, равный 0.001.
blastall –blastn –d pm_st_xc –i trna_ecoli.fasta –o trna_blast.txt –m 8 –e 0.001
./find.scr
Добавляем в отчётную таблицу соответствующий столбец.
Получили файл trna.xls
3. Поиск некодирующих последовательностей программой megablast
Используем вместо BLASTN сначала обычный megablast
megablast –d pm_st_xc –i trna_ecoli.fasta -o megablast.txt -m 8
Затем разрывный ("discontigous") megablast.
megablast –d pm_st_xc –i trna_ecoli.fasta -o discontig.txt -m 8 -t 21 -W 12 -N 2
-d база данных
-i входной файл
-o результат
-m формат вывода 9 – в виде таблицы
-t Discontiguous word template length (по умолчанию 0, можно поставить 16,18, или 21)
-W размер слова (для discontigious 11 или 12)
-N Discontiguous template type: coding (0), non-coding (1), or both (2)
Используем скрипт find.scr переделанный для файлов megablast.txt и discontig.txt , чтобы импортировать полученные данные в Excel
4. Минимальный анализ результатов
В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST выберите какую-нибудь пару из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка.
Находка в выдаче программы BLAST
Query id alaV
Subject id, AE012322
% identity, 90.79
Alignment length 76
Mismatches 7
Gap openings 0
Q. start 1
Q. end 76
S. start 526
S. end 601
E-value 1e-20
Bit score 95.6
Последовательность из файла trna_ecoli.fasta
>alaV
ggggctatagctcagctgggagagcgcctgctttgcacgcaggaggtctg
cggttcgatcccgcatagctccacca
Эта находка, находится программой BLASTN и не находится программой megablast.
Соответствующая запись банка EMBL:
AC AE012322; AE008922;
DE Xanthomonas campestris pv. campestris str. ATCC 33913, section 230 of 460
DE of the complete genome.
OS Xanthomonas campestris pv. campestris str. ATCC 33913
Аннотация нужного фрагмента
FT tRNA 526..601
FT /gene="XCC2148"
FT /product="tRNA-Ala"
FT /note="Found by tRNAscan"
Получим нужный документ EMBL и вырежем из него соответствующий фрагмент:
entret embl:AE012322 -auto
seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): ae012322.entret
Begin at position [start]: 526
End at position [end]: 601
Reverse strand [N]:
output sequence(s) [ae012322.fasta]:
Выделите исходную последовательность также в отдельный файл alaV.fasta.
needle alaV.fasta ae012322.fasta alignment.needle
Needleman-Wunsch global alignment.
Gap opening penalty [10.0]:
Gap extension penalty [0.5]:
Получим выравнивание:
# Length: 76
# Identity: 69/76 (90.8%)
# Similarity: 69/76 (90.8%)
# Gaps: 0/76 ( 0.0%)
# Score: 317.0
(*) Поиск некодирующих последовательностей программой Fasta
Проделайте работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35. Для этого придётся, во-первых, слить вместе три файла с геномами (поскольку FastA работает с банками, находящимися в обычных fasta-файлах);
во-вторых, вырезать каждую из последовательностей из файла trna_ecoli.fasta в отдельный файл;
в-третьих, научиться запускать fasta35,
четвёртых, придумать запуск grep на выходном файле программы fasta35, выдающий количество находок.