Скачать отчетный Excel-файл trna.xls.
1. Работа с программой getorf пакета EMBOS
Необходимо получить набор трансляций всех открытых рамок последовательности из записи D89965 банка EMBL длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода. Для начала получаю последовательность d89965.fasta из данной записи. Затем выполняю команду:
getorf -minsize 30 -find 1 -table 11
Finds and extracts open reading frames (ORFs)
Input nucleotide sequence(s): d89965.fasta
protein output sequence(s) [d89965.orf]:
Пятая рамка соответствует приведенной в записи CDS, а тринадцатая - записи Swiss-Prot (P0A7B8).
2. Поиск некодирующих последовательностей программой BLASTN
Необходимо определить, сколько гомологов каждой из тРНК, проаннотированных в полном геноме E.coli K12, находит программа BLASTN в геноме родственной бактерии Pasteurella multocida (pm_genome.fasta).
blastall -p blastn -d pm -i trna_ecoli.fasta -m 8 -o trna_homologs.txt
grep ">" trna_ecoli.fasta >> trna_ecoli.txt
Чтобы узнать количество гомологов запущу скрипт, в результате получу файл amount.txt.
Вновь произведу поиск, но в этот раз укажу порог E-value < 0.001:
blastall -p blastn -d pm -i trna_ecoli.fasta -m 8 -o trna_homologs_e_.txt -e 0.001
Скрипт дал файл amount2.txt.
3. Поиск некодирующих последовательностей программой megablast
Ту же задачу проделаю при помощи программы megablast:
megablast -d pm -i trna_ecoli.fasta -m 8 -o trna_homologs_mb.txt
Скрипт дал файл amount3.txt.
И с помощью discontigous megablast:
megablast -d pm -i trna_ecoli.fasta -m 8 -D 2 -t 18 -W 11 -N 1 -o trna_homologs_dmb.txt
Скрипт дал файл amount4.txt.
4. Анализ результатов
Из выходного файла trna_homologs_e_.txt выбрал пару lysT - AE006136 (2477-2402) из tRNA E.coli и найденного в геноме бактерии Pasteurella multocida гомологичного участка. Данная находка нашлась программой BLASTN и не нашлась программой megablast. Вероятно, это связано с тем, что megablast ищет слова длиной в 28 букв в геноме Pasteurella multocida, а blastn - в 11 букв.
Вырежу гомологичный участок в отдельный файл командой seqret -sask:
seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): pm_genome.fasta:AE006136
Begin at position [start]: 2402
End at position [end]: 2477
Reverse strand [N]: y
output sequence(s) [ae006136.fasta]:
Выделю исходную последовательность также в отдельный файл lysT.fasta.
Выровняю две эти последовательности программой needle:
needle lysT.fasta ae006136.fasta lysT.needle
#=======================================
#
# Aligned_sequences: 2
# 1: lysT
# 2: AE006136
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 76
# Identity: 69/76 (90.8%)
# Similarity: 69/76 (90.8%)
# Gaps: 0/76 ( 0.0%)
# Score: 317.0
#
#
#=======================================
lysT 1 gggtcgttagctcagttggtagagcagttgacttttaatcaattggtcgc 50
||||||||||||||||.||||||||||..|||||||||||..|||||||.
AE006136 1 gggtcgttagctcagtcggtagagcagcggacttttaatccgttggtcga 50
lysT 51 aggttcgaatcctgcacgacccacca 76
|||||||||||||.||||||||||||
AE006136 51 aggttcgaatccttcacgacccacca 76
#---------------------------------------
#---------------------------------------
Как мы видим, процент идентичности составил 90,8%. Предположение о том, что данная находка не нашлась программой megablast из-за того, что та ищет слова длиной 28, верно, так как в данном выравнивании нет 28 подряд идущих совпавших нуклеотидов. А вот discontigous megablast выдал данную находку, так как производил поиск словам длиной 18.
Как проаннотирован гомологичный участок в записи EMBL, описывающей геном бактерии?