Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~margo77/term1/Pftools.html
Дата изменения: Fri May 27 15:19:08 2011
Дата индексирования: Tue Oct 2 10:28:36 2012
Кодировка: Windows-1251
Пакет Pftools
1.Приготовка входного файла в формате msf
Так как pftools (в отличие от программ пакета EMBOSS) не умеет работать с файлами, имеющими конец строки, принятый в
Windows, поэтому были изменены признаки конца строки на UNIX-вые с помощью команды noreturn пакета EMBOSS:
Полученный файл содержит некоторую матрицу, составляющую профиль.
На 5 строке записан алфавит (порядок аминокислот). В матрице после "SY = " указана аминокислота, которая чаще
всего в этой позиции встречается. В каждой строке подряд идут числа, которые означают веса аминокислот в данной строке
(=позиции; числа в том же порядке, что и аминокислоты в алфавите). После надписи "SY=", соответственно, идет аминокислота,
у которой самый большой вес в строке.
4. Проверка профиля
Профиль, выданный программой полностью удовлетворяет составленному паттерну: [KR]-G-[KH]-G-X-Q-G-X-I-X-R-X(3)-{R}-R-G-P-[ME].
Поэтому никакие изменения не производились.
5. Подготовка файла с последовательностями в fasta-формате, в которых будет проводиться поиск
Для поиска во всех бактериальных последовательностях использовалась следующая команда:
seqret sw-org:bacteria bacteria.fasta
6. Нормирование профиля
Процедура нормировки меняет формулу пересчета обычной суммы весов в так называемый нормированный вес,
что облегчает установку порога для данного профиля. Для нормировки требуется сгенерировать случайный банк
того же размера, что и мой, с помощью программы shuffleseq:
shuffleseq sw-org:bacteria shuffled.fasta
Далее был проведен "фальшивый поиск" для получения типичных значений веса профиля на случайных последовательностях: