Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~UdavDasha/term3/report_7_8.doc
Дата изменения: Wed Nov 9 13:42:04 2005
Дата индексирования: Tue Oct 2 12:40:11 2012
Кодировка: koi8-r

Практическое занятие ? 7
Поиск гомологов белка CRP_ECOLI в геномах родственных бактерий
Задание ?2

Цель - найти самый близкий гомолог белка CRP_ECOLI в геноме холерного
вибриона (Vibrio cholerae). Используется программа TBLASTN (т.е. на вход
подается fasta-формат последовательности белка, а сравнивается с набором
индексных файлов, созданных из генома). При создании индексных файлов
используется параметр -p (со значением F=false, обозначающим, что файлы
создаются для нуклеотидного банка, а не для белкового).

|AC записи EMBL |AE004328 |
|Координаты выравнивания|1-210 / 1191-1820 |
|Координаты CDS |1191..1823 |
|AC белка в UniProt |Q9KNW6 |
|E-value находки |e-114 (10-114) |
|Иные предложения BLAST |Нет, следующее |
| |E-value=0.17 |

Задание ?3

Цель данного задания - объединить в индексных файлах геномы трех организмов
и с помощью той же TBLASTN провести поиск гомологов по ним для белка
CRP_ECOLI. В таблице ниже приведены новые данные о лучшем гомологе (это по-
прежнему белок из протеома Vibrio cholerae), а также о двух белках из
других бактерий, которые следуют за ним.

|? |AC записи EMBL |E-value находки |
|1 |AE004328 |e-113 |
|2 |AE006156 |e-102 |
|3 |AE004500 |2e-74 |

При включении в индексные файлы помимо генома Vibrio cholerae геномов двух
других бактерий (Pseudomonas aeruginosa и Pasteurella multocida), e-value
первоначальной находки увеличился в 10 раз.

Помимо ближайшего гомолога, найдены еще 7 белков с E-value меньшим 0,01. В
основном они принадлежат организму Pseudomonas aeruginosa. Три из них,
выдаваемые BLAST первыми, являются очень близкими и белку CRP_ECOLI: это
подтверждается высоким весом выравнивания, его длинной (практически равной
длине самого белка) и большим процентом сходства.

Задание ?4

Поиск с помощью BLASTN выдает в числе первых те же гомологи, что выдавал
поиск с помощью TBLASTN. Вообще, BLASTN не должна подходить для поиска
гомологов последовательности, но в данном конкретном случае были получены
результаты, подтвержденные предыдущим заданием. Это связано с тем, на что
уже указывалось выше - с большим сходством данных последовательностей.
Интересно отметить, что в изучаемых геномах нашлось ровно по одному гену,
кодирующему белок, который, скорее всего, схож по функциям с CRP_ECOLI.
Практическое занятие ?8

Задание ?1

Цель - сравнить результаты поиска программами fasta34 и tblastn гомологов
белка CRP_ECOLI (или гена, соответсвутющего ему, в случае FASTA) по геному
бактерии Vibrio cholerae).

В таблице ниже приведены полученные данные. Как видно, обе программы
однозначно нашли один и тот же гомолог. Следует заметить, что координаты
выравнивания в случае fasta34 отличаются от ранее полученных только потому,
что эта программа выравнивает нуклеотидную последовательность (а не
белковую, как tblastn!) против нуклеотидного банка.

|Поисковая |AC записи |Координаты |Координаты |E-value |
|программа |EMBL |выравнивания|CDS |находки |
|tblastn |AE004328 |1-210 / |1191..1823 |e-114 |
| | |1191-1820 | | |
|fasta34 |AE004328 |1-633 / |1191.. 1823|6.2e-110 |
| | |1191-1823 | | |

Задание ?2

Цель - показать, как можно "обмануть" программу MEGABLAST, заставив ее не
увидеть очень близкий гомолог данной нуклеотидной последовательности.

В качестве пробного фрагмента используем первые 120 нуклеотидов гена,
который кодирует белок Q9KNW6 в геноме Vibrio cholerae. Чтобы сделать
наименьшее число замен во фрагменте, заменим, скажем, каждый 27 нуклеотид
(при стандартной длине "слова" в 28 нуклеотидов).

Исходный фрагмент:

atggttctaggtaaacctcaaaccgatccaacactagagtggtttctttcacattgtcac
attcataagtacccatcaaaaagcacactgatccacgcgggtgagaaagcggaaacgctg

Измененный фрагмент:

atggttctaggtaaacctcaaaccgaCccaacactagagtggtttctttcacatCgtcac
attcataagtacccatcaaaaaAcacactgatccacgcgggtgagaaagcTgaaacgctg

Обозначения: зеленым фоном выделены 28-ые нуклеотиды, а желтым - позиции, в
которых были проведены замены.

Проверка показывает, что megablast действительно не находит такой гомолог
исходного гена, хотя в нем всего лишь 4 нуклеотидные замены. Это
объясняется алгоритмом работы программы, - она не может найти ни одной
"затравки" и поэтому не находит последовательность.





Задание ?3

Цель - изучить влияние параметров длины шаблона разрывного "слова" (-t),
длины "слова" (-W) и типа шаблона разрывного "слова" (-N) на работу
megablast, ставящего гэпы.

Было проведено 18 запусков megablast с различными комбинациями параметров
-t , -W, -N а также запуск вообще без этих параметров, т.е. с непрерывными
словами. Число полученных гомологов глициновых тРНК E.coli в трех геномах
при каждом наборе параметров указано в таблице ниже.

|Результаты/параметр|?1 |?2 |?3 |?4 |?5 |?6 |?7 |
|ы | | | | | | | |
|-t |16 |18 |21 |0 (по |
| | | | |умолчанию) |
|-W |11 |12 |11 |12 |11 |12 |28 (по |
| | | | | | | |умолчанию) |


Кол-во гомологов |N=0 |57 |52 |43 |32 |29 |26 |7 | | |N=1 |61 |54 |49 |44
|24 |21 |- | | |N=2 |88 |77 |58 |54 |33 |30 |- | |
Мы видим, что количество гомологов обратно пропорционально зависит и от
длины шаблонного разрывного "слова", и от длины "слова" в затравке. Это
соответствует реальной картине, - чем меньше может быть "слово" между двумя
гэпами, тем больше гомологов можно составить, однако и биологический смысл
такой выборки падает.

Если N=2, это означает, что используется либо один шаблон, либо другой.
Однако, как следует и приведенной выше таблицы, число гомологов при N=2 не
является арифметической суммой чисел гомологов при использовании шаблонов
по отдельности. Значит, некоторые гомологи удовлетворяют обоим шаблонам.

Поскольку мы ищем гомологов тРНК, я думаю, что целесообразно использовать
параметр N=1 (т.е. тот, который используется для некодирующих
последовательностей). Соответствующие данные в таблице выделены цветом.