Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~vlada/term3/result.html
Дата изменения: Tue Nov 14 17:02:36 2006
Дата индексирования: Tue Oct 2 07:27:08 2012
Кодировка: Windows-1251
result

Аннотирование фрагмента генома Klebsiella pneumoniae.

На главную страницу третьего семестра

Что кодирует фрагмент нуклеотидной последовательности?

Нам дан фрагмент неаннотированного генома бактерии Klebsiella pneumoniae 4239583-4246582. Дан также протеом и геном бактерии-прототипа. Наша задача определить кодирует фрагмент 4239583-4246582 что-либо, похожее на какой-либо белок из прототипного организма. Вариант 1

Использованные команды, необходимые для выполнения поставленной задачи.

- seqret -sask kpn_genome.fasta С помощью этой команды был получен фрагмент последовательности исследуемого генома. Файл - kpn_fasta. - formatdb -i salty_proteome.fasta -p T -n sa С помощью этой команды было получено 3 индексных файла. (соответственно sa.phr, sa.pin, sa.psq) - blastall -d sa -p blastx -i kpn.fasta -o bln.txt -F F С помощью этой команды был получен файл - bln.txt . В этом файле были обнаружены гомологи организма-прототипа. Нами была выбрана именно эта программа BLASTX, т.к она используется на первом этапе анализа новых нуклеотидных последовательностей для предсказания кодирующих участков, то есть программа BLASTX удовлетворяет поставленным условиям. В огранизме-протеоме (S. Typhimurium) был найден 41 гомолог.
 [Q8ZS06: 4089:.6578] [P37924: 4074:.6626] [P43662: 4050:.6629] [Q8ZRR6: 4137:. 6578] [Q8ZJU1: 4095:. 6581] [Q8ZRK2: 4083:. 6629] [Q8ZRI1 :4080:: 6578] [Q8ZNN7: 4185::.. 6497] [Q8ZM90: 4140:.. 6509] [O87658: 4122:: 6536] [Q7CQX8: 3::. 446 947:.. 1495] [P37923: 3321::. 3911] [Q9X605: 3321:. 3914] [P43661: 3321:. 3923] [Q8ZRR5: 3321::. 3917] [P37921: 2113..... 2496 2717: 3181 6649:. 6996] [Q8ZJV5: 4509::. 6500] [Q8ZJU0: 3324: 3902] [Q8ZM91: 3324:. 3908] [Q9X604: 2029:.2571 2720:3178] [Q8ZS04: 3321:.3914] [Q8ZRK3: 3324:.3935] [P43660: 2732:.3181 2119:.2490 6634:.6996] [Q9X608: 2732:.3181 6640:.6999] [P37922: 2717:.3178 2119:..2415] [Q8ZNN6: 3321:3923] [Q8ZRI0: 3324:.3905] [Q9X607: 2735:.3181 2125:.2496 6670:..6996] [Q8ZRI3: 3324:.3902] [O87659: 3324:.3914] [Q8ZRR4: 2119:.2439 2720:..3178] [P55888: 971:1492 3:.455] [P0A2P6: 3:.401 839:1456] [Q8ZM89: 2732:.3178 2119:.2430 6718:.6993] [P37926: 2714:.3178] [O87657: 2113:.2472 2732:.3178] [P43664: 2732:.3181 6670:.6990] [Q8ZJT9: 2735:.3181 6670:.6990] [Q8ZRH9: 2122:.2484] [Q8ZRP9: 2735:3178] [Q8ZJU2: 2125:2430]
Все эти гомологи были разбиты на группы сильно перекрывающихся генов. Из каждой группы был выбран только один гипотетический ген и предполагается, что все остальные гены из данной группы являются гомологами только одного. Ниже перечислены эти группы.
1 Группа перекрывающихся гомологов.

[P55888: 3:.455] [P0A2P6: 3:.401] [ Q7CQX8: 3:.446 ]

Из этого списка был выбран [P55888: 3:.455]

2 Группа перекрывающихся гомологов .

[P0A2P6: 839:1456] [P55888: 971:1492] [ Q7CQX8: 947:.. 1495]

Из этого списка был выбран [P0A2P6: 839:1456]

3 Группа перекрывающихся гомологов.

[Q9X604: 2029:.2571] [O87657: 2113:.2472] [P43660: 2119:.2490 ] [Q9X607: 2125:.2496] [P37922: 2119:..2415] [Q8ZRR4: 2119:.2439] [Q8ZRH9: 2122:.2484] [Q8ZJU2: 2125:2430] [P37921: 2113..... 2496]

Из этой группы был выбран гомолог [Q9X604: 2029:.2571]

4 Группа перекрывающихся гомологов.

[Q9X604: 2720:3178] [Q8ZRR4: 2720:..3178] [P37926: 2714:.3178] [P37922: 2717:.3178 ] [P43660: 2732:.3181] [Q9X608: 2732:.3181] [Q9X607: 2735:.3181] [O87657: 2732:.3178] [P43664: 2732:.3181] [Q8ZJT9: 2735:.3181] [Q8ZRP9: 2735:3178] [P37921: 2717: 3181]

Из этого списка был выбран [P37926: 2714:.3178]

5 Группа перекрывающихся гомологов.

[P37923: 3321::. 3911] [Q9X605: 3321:. 3914] [Q8ZRR5: 3321:3917] [P43661: 3321:. 3923] [Q8ZJU0: 3324: 3902] [Q8ZM91: 3324:. 3908] [Q8ZS04: 3321:.3914] [Q8ZRK3: 3324:.3935] [Q8ZRI0: 3324:.3905] [Q8ZRI3: 3324:.3902] [O87659: 3324:.3914] [Q8ZNN6: 3321:3923]

Был выбран только один [P43661: 3321:. 3923].

6 Группа перекрывающихся гомологов.

[P43662: 4050:.6629] [P37924: 4074:.6626] [Q8ZRI1: 4080:6578] [Q8ZRK2: 4083:6629] [Q8ZS06: 4089:.6578] [Q8ZJU1: 4095:. 6581] [Q8ZRR6: 4137:. 6578] [Q8ZM90: 4140:.. 6509] [Q8ZNN7: 4185:.6497] [O87658: 4122:: 6536]

Был выбран только один [P43662: 4050:.6629].

7 Группа перекрывающихся гомологов.

[P43660: 6634:.6996] [Q9X608: 6640:.6999] [Q9X607: 6670:..6996] [P43664: 6670:.6990] [Q8ZJT9: 6670:.6990]

Из этого списка был выбран [P43660: 6634:.6996]

В итоге мы получили. P55888 соответствующий ген XERC P0A2P6 соответствующий ген XERD Q9X604 соответствующий ген BCFA P37926 соответствующий ген FIMF P43661 соответствующий ген LPFB P43662 соответствующий ген LPFC P43660 соответствующий ген LFPA (*)5' : [=>ген XERC: 3...455]....[=>ген XERD: 839:1456]...[=>ген BCFA: 2029...2571] ...[=>ген FIMF: 2714:.3178]:..[=>ген LPFB: 3321...3923]... [=>ген LPFC: 4050...6629]...[=>ген LFPA: 6634...6996]...:3' В UniProt были найдены соответствующие белки запросом : Query "(((((([uniprot-AccNumber: P55888*] | [uniprot-AccNumber:P0A2P6*]) | [uniprot-AccNumber:Q9X604*]) | [uniprot-AccNumber:P37926*]) | [uniprot-AccNumber:P43661*]) | [uniprot-AccNumber:P43662*]) | [uniprot-AccNumber:P43660*]) " found 7 entries Была выполнена команда link, следовательно была произведена связь с документом EMBL. Получены следующие результаты: [BCFA: 4484..5033] [FIMF: 10663..11192] [XERC: 7702..8619] [BCFA: 1:9200] EMBL [XERC: 49746:50648] [FIMF: 6639:7157] [LPFB: 1098:1796] [LPFC: 1819:4347] [XERD: 336:1232] [XERC: 410:1312] Пересекающиеся гомологи: [Q9X604: 1:9200] [P55888: 410:1312] [P0A2P6: 336:1232] Был выбран :[P55888: 410:1312] [Q9X604: 4484..5033] [P55888: 7702..8619] [P37926: 6639:7157] [P43661: 1098:1796] [P43662: 1819:4347] Комплементарные гомологи: [P0A2P6: 2668:3576] [P43661: 18311:19022] [P43660: 19094:19630] В итоге мы получили: (**)5'...[=>ген XERC: 410...1312]...[=>ген LPFB: 1098...1796].... [=>ген LPFC: 1819:4347]....[=>ген BCFA: 4484..5033]....[=>ген FIMF: 6639:7157].... ..[=>ген XERC: 7702..8619]...[=>ген FIMF: 10663...11192]....[=>ген XERC: 49746...50648]....3' 3'....[<=ген XERD: 2668...3576]....[<=ген LPFB: 18311...19022].... [<=ген LFPA: 19094...19630]...5'

Сравнение результатов.

В результате, полученном программой BLASTX все гипотетические гены находятся на прямой цепи. Результат, полученный с помощью SRS и EMBL очень сильно отличается от результата, полученного с помощью программы BLASTX. В нем три гена : XERD, LPFB, LFPA находятся на комплементарной цепи, следовательно вероятность того, что три гена являются гипотетическими генами в изучаемом фрагменте, очень мала, но все же можно найти некоторые сходства. Расположение всех остальных генов в (**) сильно отличается, по сравнению с (*). Первым стоит ген XERC и в (*) и в (**), следовательно гипотетических он может оказаться геном изучаемого фрагмента. Имеется еще 2 гена (BCFA и FIMF), которые так же могут являться гипотетическими генами изучаемого фрагмента. Оба гена в обеих последовательностях, составленных на основании полученных результатов, стоят достаточно близко друг к другу, но в (*) все три гена находятся (XERC, BCFA и FIMF) на достаточно близком расстоянии друг от друга, а в (**) 2 гена (BCFA и FIMF) расположены достаточно далеко от XERC. Что касается других генов, то они вряд ли являются гипотетическими генами исследуемого фрагмента, т.к. их расположение в (**) никак не соответствует (даже приблизительно) их расположению в (*). Выше, мы пытались сделать выводы на основании тех результатов, которые мы получили с помощью EMBL, BLASTX. Но хочется уточнить, что последовательность (**) является некорректной!!! Т.к. она была сделана на основе тех документов, которые мы получили с помощью SRS. Этих документов было больше 7!!! В них были представлены секвенированные кусочки Salmonella typhimurium, но не весь протеом, следовательно нумерация остатков могла быть совершенно произвольной (от есть один кусочек в одном документе мог начинаться с 1 и другой кусочек мог начинаться с 1). Следовательно некорректно говорить о расположении белков в полном протеоме. Более корректно будет говорить о расположении белков в протеоме (и соответственно генов) если результат, полученный программой BLASTX сравнивать с результатом, полученном при исследовании протеома вручную. Так же при определении гипотетических генов, белков, нельзя забывать по процент идентичности, чем больше этот процент, тем больше вероятность, что этот ген является соответствующим гипотетическим геном в изучаемом фрагменте или последовательности.


©Трембицкая Влада