Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.fbb.msu.ru/FBB/year_09/term2/help7.doc
Дата изменения: Fri Mar 26 15:08:59 2010
Дата индексирования: Tue Oct 2 04:14:29 2012
Кодировка: koi8-r

Методические указания


0. Скопируйте и переименуйте файл Sample_pr_7.xls
1. Используйте protein BLAST на сайте NCBI
(http://blast.ncbi.nlm.nih.gov/Blast.cgi)

a. Выберите банк последовательностей - Refseq proteins; это,
примерно, американский вариант TrEMBL+SwissProt

b. Укажите нужный таксон в окне Organism

c. Нажмите BLAST и подождите результата

d. Сохраните данные о лучшей (первой) находке из списка находок и
из локального выравнивания находки и вашей последовательности.

e. То же - для второго организма (а если потребуется - и для
третьего)

2. Задайте нужную область поиска - банк последовательностей и таксон.
Раскройте Algorithm parameters и укажите максимальное число находок
(Maximal target number) - 1000. Blast, ждите результат

a. Download (сверху) => Hit table(text) и сохраните таблицу в файле

i. Удалите строчки с заголовком (лучше - в FAR)

ii. Если ваш Excel десятичным разделителем считает запятую, то
замените все точки на запятые

iii. Написал скрипт для реформатирования
reformat_blast_hit_дшые.py. Спрашивайте как запустить!

iv. Скопируйте содержимое файла на страницу blast_hits файла
XXXXXXX_pr_7.xls; заголовки там уже подогнаны. Сохраните
файл

b. Два способа: первый проще - получаем список находок со страницы
BLAST, а в нем названия белков усечены. Второй дает полные
названия.

i. Первый способ. Со страницы находок BLAST:

1. Download => Text, сохраняете файл

2. Копируете содержимое на новую страницу Excel

3. Текст по столбцам - так, чтобы названия белков
оказались в одной колонке

4. Переносите на страницу blast_hits - копированием
(списки должны быть одинаково упорядочены,
проверьте!) или командой vlookup (придется
идентификаторы одинаковые выделить в отдельные
колонки)

ii. Второй способ:

1. Get selected sequences (кнопка снизу)

2. Выбирает Send to. File и сохраняете файл; в нем будут
полные названия.

3. Немножко повозиться придется чтобы внести эти
названия в Excel на нужные места (

c. Кнопка Multiple alignment (есть и сверху, и снизу страницы). В
выравнивание берутся все отмеченные галочкой находки, для
которых E_value<0,001.

i. Multiple alignment => Download , формат Fasta plus gaps,
сохраните во временном файле

ii. Откройте GeneDoc, импортируйте этот файл

iii. Установите раскраску Shade => Shade to 4 levels, Enable
similarity groups

iv. Сохраните в файле нужного формата с указанным именем

d. Для решения о гомологичности белков следует учитывать:

i. параметры сходства находки и входной последовательности

1. E_value (<0,0001 - хорошо, между 0,001 и 0,01 - туда-
сюда, >0,01 - сомнительно)

2. Процент Identity (>50% - хорошо; 30-50% -неплохо; 20-
30% - сомнительно, на грани; <20% - гомология
маловероятна)

3. Процент Similarity

4. Длина локального выравнивания из BLAST (чем длиннее,
тем лучше)

5. Число вставок/делеций в локальном выравнивании (чем
меньше, тем лучше)

ii. Множественное выравнивание находок ; хорошо когда у находок
есть общая консервативная часть - участок множественного
выравнивания, на котором много консервативных или
функционально консервативных позиций

iii. Сходство функций находок и исходного белка. Вещь далеко не
абсолютная, так как в большинстве случаев функция белка в
аннотации записи определяется по сходству
последовательностей!