Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~contradiction/term3/zachet.htm
Дата изменения: Wed Oct 4 17:38:48 2006
Дата индексирования: Tue Oct 2 12:44:46 2012
Кодировка: Windows-1251
Поиск сходных нуклеотидных последовательной, не кодирующих белки

Что кодирует фрагмент нуклеотидной последовательности?





Вариант 1.

    Начальные данные:

  • Начало фрагмента в геноме Klebsiella pneumoniae 4070583
  • Длина фрагмента 7000
  • Задача:

  • Получить заданную последовательность
  • Определить, закодированы ли там белки, похожие на белки из Salmonella typhimurium
  • Проиндексировать протеом
  • Выбрать программу, подходящую для поставленной задачи
  • Исследовать полученный файл
  • Назвать участки исследуемого фрагмента по имени гомологичного белка
  • Описать расположение кодирующих областей
  • Результаты:

    СКАЧАТЬ allfiles.tgz

  • Выбор программы BLASTX.
    • Обоснование: Эта программа используется для анализа новых нуклеотидных последовательностей и предсказания кодирующих участков. Берет пробную последовательность нуклеиновых кислот и ищет в белковых базах данных.
  • Команды:
    • seqret kpn_genome.fasta -sask - получили файл frag.fasta c последовательностью фрагмента
    • formatdb -i slaty_proteome.fasta -p T -n salty - получили индексные файлы
    • blastall -p blastx -d salty -i frag.fasta -o result_new.txt -F F -e 0.001 - получили файл с выравниваниями, что позволило определить "гомологов" (c e-value < 0.001)
  • фрагмент файла result_new.txt
    
                                                                     Score    E
    Sequences producing significant alignments:                      (bits) Value
    
    Q8ZMD2 Q8ZMD2_SALTY Putative nucleotide binding.                      835   0.0  
    Q8ZMD1 Q8ZMD1_SALTY Putative HAAAP family serine transport protein.   786   0.0  
    Q8ZMD0 Q8ZMD0_SALTY L-serine dehydratase (EC 4.2.1.13).               546   e-156
    Q8ZMD3 QUEF_SALTY NADPH-dependent 7-cyano-7-deazaguanine reducta...   501   e-142
    Q8ZLW1 Q8ZLW1_SALTY HAAAP family L-threonine/ L-serine permease.      445   e-125
    Q8ZP07 Q8ZP07_SALTY L-serine deaminase I/L-threonine deaminase I...   442   e-124
    Q8ZLW3 Q8ZLW3_SALTY L-serine deaminase (EC 4.2.1.13).                 385   e-107
    Q8ZM95 Q8ZM95_SALTY Putative transport protein.                       294   5e-80
    P60084 SYDP_SALTY Protein syd.                                        253   1e-67
    Q8ZMD5 TRUC_SALTY tRNA pseudouridine synthase C (EC 5.4.99.-) (t...   228   5e-60
    Q8ZNL3 Q8ZNL3_SALTY Putative D-serine dehydratase.                    201   7e-52
    Q8ZLW4 Q8ZLW4_SALTY Putative HAAAP family transport protein.          155   3e-38
    Q8ZMD4 Q8ZMD4_SALTY Putative cytoplasmic protein.                     142   2e-34
    Q8ZLB3 Q8ZLB3_SALTY Putative HAAAP family transport protein.          133   2e-31
    Q8ZRV9 RLUA_SALTY Ribosomal large subunit pseudouridine synthase...    62   7e-10
    Q8ZQ16 RLUC_SALTY Ribosomal large subunit pseudouridine synthase...    60   2e-09
    P65836 RLUD_SALTY Ribosomal large subunit pseudouridine synthase...    43   3e-04
    
    
  • Поскольку гомологов много, рассмотрим первые семь.
  • Для чистоты исследования в схеме указаны именно названия генов, полученные из базы данных.
  • Поиск в UniPROT:

    Query "((((([uniprot-AccNumber:Q8ZMD2*] | [uniprot-AccNumber:Q8ZMD1*]) | [uniprot-AccNumber:Q8ZMD0*]) | [uniprot-AccNumber:Q8ZMD3*]) | [uniprot-AccNumber:Q8ZLW1*]) | [uniprot-AccNumber:Q8ZP07*]) | [uniprot-AccNumber:Q8ZLW1*]) " found 7 entries

    Теперь мы знаем названия генов.
  • Схема:

    
    
    Гипотетические гены во фрагменте 4070583-4077582 
    
    
    3'--------------------------------------------------------------------------------------5'
    
    5'-[=>ген QUEF, 1932-2774]------[=>ген YGDH, 2889-4253]--[=>ген SDAC, 4766-------6052]--3'
                                                                  [=>ген TDCC, 4781-6049]      
    
    
    
    
    3'--------------------------------------------------------------------------------------5'
    
    5'-----[=>ген SDAB, 6121-6999]----------------------------------------------------------3'
           [=>ген SDAA, 6121-6999]
           [=>ген TDCG, 6121-6999]
    
    
    

    Заметим интересное расположение генов SDAB, SDAA и TDCG

  • Использую link с EMBL:

    Query "((((((([uniprot-AccNumber:Q8ZMD2*] | [uniprot-AccNumber:Q8ZMD1*]) | [uniprot-AccNumber:Q8ZMD0*]) | [uniprot-AccNumber:Q8ZMD3*]) | [uniprot-AccNumber:Q8ZLW1*]) | [uniprot-AccNumber:Q8ZP07*]) | [uniprot-AccNumber:Q8ZLW3*]) > EMBL ) " found 3 entries
  • Исследую первую запись:

    генов 18. взаимно располагаются на разных цепях.