Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~julia_p/Muscle.html
Дата изменения: Tue May 19 19:20:12 2009 Дата индексирования: Tue Oct 2 00:26:03 2012 Кодировка: Windows-1251 |
Получаю файл с последовательностями 34 дельта-антигенов в формате fasta с помощью SRS (запрос: [swissprot-Taxonomy:Deltavirus*] & [swissprot-Description:delta*]), после чего сохраняем последовательности антигенов с помощью кнопки Save. Полученный файл. Этот файл импортирую в GeneDoc, полученное сохраняю в файл.
Пробую выравнять последовательности на глаз-полученное выравнивание.
Построю выравнивание с помощью программы Muscle, использую в Putty команду:
muscle -in delta.fasta -out delta_aligned.fastaПолучаю файл с выравниванием.
.
Затем импортирую полученный файл в GeneDoc. Исследуемые последовательности очень похожи между собой, это видно на невыровненных последовательностях - имеются консервативные участки. При выравнивание с помощью Muscle участки консервативности увеличились по протяженности. Из полученного выравнивания мы можем сделать вывод, что белки гомологичны, и их концы скорее всего не содержат биологического смысла(тк у некоторых они отсутствуют,но неуверенность возникает из-за того, что если концы имеютс у белков, то они очень похожи).
Найду и выберу 10 гомологов моего белка SYC_ecoli. Запущу BLAST по Swiss-Prot, ограничив поиск таксоном Bacteria и поставив порог на E-value, равный 0.001. Белки берем с процентом идентичности не более 90% (что бы не были слишком близки к моему белку) и не меньше 40%, желательно что бы выбранные белки не были слишком близки друг к другу Создаю файл в нем пишу список выбранных белков-гомологов и мой белок. С помощью putty получаю последовательности - команда
'seqret @myproteins.list myproteins.fasta'Полученный файл. Затем с помощью muscle строю множественное выравнивание.
Множественное выравнивание в GeneDoc.
Можем заметить, что последовательности очень похожи между собой, поэтому мы можем говорить, что эти белки с высокой вероятностью являются гомологами. Мы можем заметить давольно длинные консервативные участки, как например: 1-17, 21-45, 63-78, 152-171, 188-213, 220-242, 250-281, 284-305(по белку SYC_ENT38). Очевидно, что количество таких протяженных участков указывает на гомологичность. Если внимательно рассмотреть выравнивание, то мы можем найти участки, содержащие недостоверное выравнивание, которое скорее всего не несет биологического смысла. Можно предположить, что для последовательности белка SYC_COXBU выравнивание не верно, т.к. она сдвинута относительно других последовательностей. Так же обратив внимание на участок 138-144 по последовательности SYC_COLP3 - во всех последовательностях кроме указанной этот участок геповый - можем предположить, что этот участок выполняет какую-нибудь функцию в белке, а в других нет, или же не несет никакой смысловой нагрузки. Похожие участки наблюдаются в 188-191 по SYC_BLOPB, 347-356 и 386-390 по SYC_THEYD. Скорее всего концы последовательностей (с 486 по SYC_THEYD)не влияют на пространственную структуру белков и выполняемую ими функцию.
Изучаем программы mafft и edialign с помощью Putty, а там отвечаем на задаваемые программой вопросы. Программа edialign принимает один входной файл и выдает два выходных файла, из которых первый содержит "текст для чтения", а второй - выравнивание в fasta-формате (поэтому только второй пригоден для обработки другими программами, например для импорта в GeneDoc).
При работе с программой mafft получила файл. Файл в GeneDoc.
Полученное выравнивание очень похоже с выравнивание в Muscle. Одно из отличий заключается в том, что в mafft устранена ошибка в начале последовательностей. Заметно, что это выравнивание является более осмысленным.
В программе edialign получила выравнивание и файл для чтения, а так же файл из GeneDoc.
Новое выравнивание так же устраняет ошибку в начале выравнивания, помимо этого edialign немного меняет распложение гепов - на мой взгляд это расположение не влиет на пространственные структуры и соответственно выполняемые функции, т.к. не несет биологического смысла. Анализируя все три полученных выравнивания, понимаем, что все три программы выдали очень хорошие и приблизительно похожие выравнивания, но ,на мой взгляд, успешнее всех справилась программа mafft.
Попробуем самостоятельно освоить программы consambig, distmat и plotcon. Чтобы прочитать подробное описание программы, выполним команду tfm с параметром - именем программы, например 'tfm distmat'.
первый - Uncorrected distances (подсчет расстояния без поправки на множественные замены). Полученный файл. второй - Jukes-Cantor(метод делает поправку на множственные замены).Полученный файл. третий - Kimura Protein distance(метод делает поправку на множественные замены,игнорирует гэпы и при расчете расстояния учитывает только точные совпадения). Полученный файл.
Второй семестр