|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~anastaisha_w/an_gen.html
Дата изменения: Thu Dec 27 12:51:13 2007 Дата индексирования: Tue Oct 2 03:21:17 2012 Кодировка: Windows-1251 |
Страница курса биоинформатики
Факультет биоинженерии и биоинформатики
Отчет за контрольную работу.
Суворова Анастасия.
20.12.2007
Первый вариант
Заданная последовательность: AALF01000002
Начало координат: 105001
С помощью seqret был вырезан участок в 4000 нуклеотидов: seqretAALF01000002.entret -sask
Нам нужно было определить закодированы ли в нем белки, похожие на белки из Salmonella typhimurium.
Для этого проиндексируем протеом Salmonella typhimurium с помощью программы formatdb и используем программу
BLASTX.
Анализируем неаннотированный участок генома, для того, чтобы выяснить какие белки он кодирует.
Получаем файл: stres.txt
В результате найдено 91 последовательность, которые близки к содержащимся в протеоме
у Salmonella typhimurium, с e-value < 0.001.
Лучшая находка:
>Q7CR10 Q7CR10_SALTY Putative ABC superfamily (Atp_bind) transporter.
Length = 228
Score = 180 bits (456), Expect = 7e-46
Identities = 102/228 (44%), Positives = 145/228 (63%), Gaps = 8/228 (3%)
Frame = -1
Query: 2062 PTDAVIETRHLYKRFGQ----VTALEDINIRINRGEFVAIMGASGSGKTTLMNILTCLDT 1895
P + +E L K GQ ++ L + + + RGE +A++G SGSGK+TL+ IL LD
Sbjct: 2 PAENSVEVHRLRKSVGQGEHELSILTGVELVVKRGETIALIGESGSGKSTLLAILAGLDD 61
Query: 1894 VSEGQVLLDGIDAAGLDEEGRRQFRADKIGLVFQQFHLIPYLTALENI---MLAQHYHSV 1724
S G+V L G +DEE R Q RA +G VFQ F LIP L ALEN+ L + +S
Sbjct: 62 GSSGEVSLVGKPLHQMDEEARAQLRAQHVGFVFQSFMLIPTLNALENVELPALLRGENSG 121
Query: 1723 VDEDAARQVLEQVGMTPRMGHLPSQLSGGEQQRVCIARALVNQPPIIFADEPTGNLDEEN 1544
+ A+ +LEQ+G+ R+ HLP+QLSGGEQQRV +ARA +P ++FADEPTGNLD +
Sbjct: 122 QSKAGAKALLEQLGLGKRLDHLPAQLSGGEQQRVALARAFNGRPDVLFADEPTGNLDRQT 181
Query: 1543 EQRVLDLLNHIHRQ-GRTIVMVTHNPDLGCVADRVIRLQHGKYLNEES 1403
++ DLL ++R+ G T+++VTH+P L DR +RL +G+ L EE+
Sbjct: 182 GDKIADLLFSLNREHGTTLILVTHDPALAARCDRRLRLVNGQ-LQEEA 228
Предсказани генов
В выравнивании Blast было найдено 4 гена. Для них был проведен поиск в EMBL.
AC в UniProt Сектор в EMBL Название гена Координаты в UniProt Координаты в EMBL
Q7CR10 AE008719 Q7CR10_SALTY 2062-1403 1650-2477
Q8XFK6 AE008800 Q8XFK6_SALTY 1245-946 202-2036
AE008877
Q8ZP13 AE008780 Q8ZP13_SALTY 395-114 205-1535
Q8ZR90 AE008757 Q8ZR90_SALTY 2797-2240 2631..5132
Общая схема расположения генов.
5`-----------------[<=Q8ZP13 395-114]------[<= Q8XFK6 1245-946]--------[ <=Q7CR10 2062-1403]------[<= Q8ZR90 2797-2240] ----3`
Видно, что все гены расположены в разных секторах, поэтому их гомологи будт располагаться по-другому.