Сведения о домене KilA-N
- AC: KilA-N domain (ID: PF04383)
- Функция: ДНК-связывающий домен. Белки, содержащие этот домен, специфично взаимодействуют с нуклеиновыми кислотами и белками, могут обладать ферментативной активностью (нуклеазы).
- По данным Pfam с этим доменом найдено 28 архитектур
- Кол-во последовательностей по царствам:
Эукариоты Вирусы Бактерии 1491 (из них 231 в грибах) 136 494 - Выравнивание
Выбранные архитектуры:
- KilA-N,ORF11CD3 (72 представителя)
Домен ORF11CD3 (PF10549) содержится в 6 архитектурах в 188 последовательностях (из них 109 в бактериях и 20 в вирусах) - Kila-N (1819 представителей)
Выброр таксономии
Возникли проблемы с составлением сводной таблицы (не сработал скрипт swisspfam_to_xls.py).С помощью скрипта python uniprot_to_taxonomy.py была получена таксономия для представителей выбранных архитектур. Архитектура с двумя доменами оказалась не слишком разнообразна, были выбраны представители царств бактерии и вирусы. Зато для второй архитектуры (монодоменной) были выбраны представители царств археи, бактерии, эукариоты (грибы), см.таблицу.
Выбор представителей архитектур
И вновь возникли проблемы...На этот раз не сработал скрипт filter_alignment.py. Дополнительно в выравнивание была добавлена последовательность с известной 3D структурой, содержащая данный домен и не вошедшая ни в одну из групп.
Итоговое выравниваниеКодировка имен последовательностей
X_X_X_XXXXX - общий вид.
На первом месте стоит количество доменов из доменной архитектуры (1 или 2 соответственно)
На втором месте первая буква царства (A-Archaea, B-Bacteria, E-Eukaryota, V-Viruses)
На третьем месте следующий после царства таксон:
- X_V_D-DNA viruses
- X_B_A-Actinobacteria
- X_B_B-Bacteroidetes
- X_B_C-Chlorobi
- X_B_Fir-Firmicutes
- X_B_Fus-Fusobacteria
- X_B_P-Proteobacteria
- X_E_F-Fungi
- X_E_P-Parabasalia
Исходное имя Полученное имя A7ZJH5_ECO24 2_B_P_A7ZJH5 B2N3J5_ECOLX 2_B_P_B2N3J5 B3X711_SHIDY 2_B_P_B3X711 B5QCZ6_SALVI 2_B_P_B5QCZ6 B5YTH5_ECO5E 2_B_P_B5YTH5 B6DZW8_9CAUD 2_V_D_B6DZW8 B6ETD9_9CAUD 2_V_D_B6ETD9 C6UZM3_ECO5T 2_B_P_C6UZM3 D8ACV5_ECOLX 2_B_P_D8ACV5 E1VAW0_HALED 2_B_P_E1VAW0 E5AGA1_9CAUD 2_V_D_E5AGA1 E7JWC1_SHISO 2_B_P_E7JWC1 E7T5A7_SHIBO 2_B_P_E7T5A7 E7YNE2_SALMO 2_B_P_E7YNE2 E8BD31_SALMO 2_B_P_E8BD31 E8BND5_SALMO 2_B_P_E8BND5 E8C9P1_SALMO 2_B_P_E8C9P1 E8CLM1_SALMO 2_B_P_E8CLM1 Q0T7R9_SHIF8 2_B_P_Q0T7R9 Q9AZ05_BPHK6 2_V_D_Q9AZ05 Q9XJS9_BPD3 2_V_D_Q9XJS9 A2FYH5_TRIVA 1_E_P_A2FYH5 A2I289_TRIVA 1_E_P_A2I289 A2I2C3_TRIVA 1_E_P_A2I2C3 E3D9W8_GARV3 1_B_A_E3D9W8 E5BNJ6_9FUSO 1_B_Fus_E5BNJ6 F0F5D1_9BACT 1_B_B_F0F5D1 F0GPW3_9LACO 1_B_Fir_F0GPW3 F0H301_9FIRM 1_B_Fir_F0H301 F0P2W2_WEEVC 1_B_B_F0P2W2 F1T4B4_9ACTN 1_B_A_F1T4B4 Q2FNN4_METHJ 1_A_Q2FNN4 Q2HGS8_CHAGB 1_E_F_Q2HGS8 Q2TZC9_ASPOR 1_E_F_Q2TZC9 Q2UZW2_CANGB 1_E_F_Q2UZW2 Q3AQM6_CHLCH 1_B_C_Q3AQM6 Q3B4L6_PELLD 1_B_C_Q3B4L6 Q57QA1_SALCH 1_B_P_Q57QA1 Q7P2Z0_FUSNV 1_B_Fus_Q7P2Z0 Q80HY8_VACCW 1_V_D_Q80HY8 Q8SBE6_BPSF5 1_V_D_Q8SBE6 Q9EMR7_AMEPV 1_V_D_Q9EMR7 Q9PB51_XYLFA 1_B_P_Q9PB51 YL033_MIMIV 1_V_D_YL033 YR878_MIMIV 1_V_D_YR878 Филогенетическое дерево выборки
Для выбранных последовательностей сперва было построено дерево с помощью алгоритма Neighbor-Joining (без укоренения и учета молекулярных часов), а затем с помощью алгоритма UPGMA (с укоренением и учетом молекулярных часов), так как матрица расстояний не слишком далека от ультраметрической. Оба алгоритма предложили мне одно и то же дерево со скобочной формулой.
Судя по данному дереву, в процессе эволюции однодоменный белок у давнего предка видимо соединился с другим белком, создав новую доменную архитектуру. Об этом свидетельствует то, что монодоменная структура встречается во всех представленных таксонах, а двудоменная в основном у представителей Proteobacteria царства Bacteria, также она наблюдается и у некоторых вирусов, но это легко объяснимо (вирусы используют бактериальную ДНК и при выходе из клетки могут встраивать в свой геном ее часть).
Разделение выравнивания на две группы
Филогенетическое дерево позволяет четко выделить представителей второй доменной архитектуры, поэтому я делю исходное выравнивание на две группы по доменным архитектурам.
Построение профиля
Профиль монодоменной архитектуры
Что касается профиля для первой архитектуры, то его программа мажно сказать не составила, так как при поиске по исходным последовательностям даже с указанием очень маленького веса (0,05) профиль не находил двух искомых последовательностей и находил ненужные, дальше с увеличением веса - еще хуже. Поэтому для первой архитектуры пороговое значение установить не удалось.
Для профиля, содержащего два дамена все оказалось намного лучше, в данном случае дополнительную роль сыграла еще и таксономическая близость организмов.
Для выбранного порогового значения 13,2: TP=21(все), TN=24, FP=0, FN=0.Поиск последовательностей в SwissProt по сконструированным профилям
Всвязи с результатом предыдущего задания поиск осуществлялся только по профилю для второй архитектуры.
Так как найденный порог не является нормированным, то для поиска в SwissProt его пришлось снизить. Но даже с порогом 1.29 профиль нашел всего 30 последовательностей.
Удивительным мне показалось то, что к моей доменной архитектуре принадлежало только три белка (они и имели максимальный вес). А ведь в предыдущем задании профиль хорошо искал необходимые последовательности.
Наверное, это можно объяснить тем, что структура белков с другими предложенными доменными архитектурами чуть более похожа на профиль, чем непредставленные искомые последовательности. С другой стороны, такой низкий порог и малое количество найденных белков подают надежду, что все-таки белков, похожих на подобный профиль не так уж много.
Таким образом, мне удалось предложить гипотезу возникновения выбранных мною доменных архитектур, а вот составить для них хорошие профили не получилось.