Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~igogo/Term4/function.html
Дата изменения: Tue Apr 3 18:48:07 2007
Дата индексирования: Tue Oct 2 08:48:03 2012
Кодировка: Windows-1251
Function

Функции генов и их продуктов. Онтологии, GO.


На главную страницу четвертого семестра

  1. Поиск нужного термина в словарях GO.

    Итак, белок из организма Danio rerio (полосатая рыбка; "рыба-зебра") локализован в аппарате Гольджи (см. задание). На главном сайте консорциума GO, http://www.geneontology.org/, ведется поиск наиболее подходящего термина GO:
    для этого заполняется поле "Search for genes, proteins or GO terms using AmiGO" (с отмеченным "GO term or ID"). Для поиска задаем "Golgi apparatus" (найдено 6 терминов, 2 из них отвечают клеточной структуре. На вход можно подать и Golgi complex; поиск ведется даже "по частям слов" - так запрос на "Gol tus" выдает искомое (естественно, в выдаче - все термины, в которых встеречается заданное "словосочетание" )); в результате получаем список находок, которые в дальнейшем можно отсортировать (добавив фильтр "Cellular Component").

  2. Описание функции конкретного белка с помощью GOA.

    На главной странице БД GOA в поле запроса вводится AC UniProt белка L-аспарагиназы - P00805. В результате открывается страничка со списком всех терминов GO, ассоциированным с данной записью UniProt. По данным этой странички заполняется таблица следующего вида:

      Онтология GO (имя) Количество ассоциированных терминов GO Краткий ответ на вопрос
    Где? Клеточный компонент (component) 1 В периплазматическом пространстве (это пространство между внутренней (цитоплазматической) и наружной мембранами (Грам-отрицательные бактерии; а, например, для грибов - про-во между мембраной и клеточной стенкой); GO ID: GO:0042597)
    Зачем, для чего? Биологический процесс (process) 2 Участие в метаболизме аминокислот (=рацемизации L-аминокислот; GO:0006520); в метаболизме аспарагина (GO:0006528).
    Молекулярный механизм? Функция (function) 2
    (3 находки)
    • аспарагиназная активность: катализ реакции
      L-аспарагин + H2O = L-аспартат + NH3
      [ L-asparagine + H2O = L-aspartate + NH3 ]
      (GO:0004067);
    • гидролазная активность: катализ гидролиза различных связей (например, C-O, C-N, C-C, фосфорно-ангидридных и пр.; GO:0016787 ).
    Специфичность? - - "Прямой" информации нет. Но по данным InterPro: IPR004550 (для GO:0004067), существует близких семейства аспарагиназ, причем L-аспарагиназа II - высокоаффинный белок (обладает высокой степенью сродства к субстрату), в то время как L-аспарагиназа I - низкоаффинный белок.

    Все данные представлены по результатам электронной аннотации - IEA. В разделе "Источники" - "Source" - yказаны БД InterPro и UniProt (наблюдение: в разделе "function" количество ассоциированных терминов GO - 3, но 2 из них - одинаковые (GO:0004067 для InterPro и UniProt Enzyme Code)).
    На страничках имеются графы, отражающие связи между терминами.

  3. Создание больших выборок белков с определенными функциями (поиск по идентификаторам GO в БД UniProt с помощью SRS)

    "Тренировка в поиске":

    Теперь непосредственно задача: оценить, насколько хорошо аннотированы в UniProt функции белков Danio rerio аппарата Гольджи.
    Результаты - см. таблицу (курсивом в строке с запросом выделяется выбранное поле (раздел) поиска):

    Протеом Danio rerio Результаты поиска в UniProt, исправлено 02.04.2007 г.
      Количество записей Запрос
    Всего 20343 Organism Name Danio rerio
    (([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*])
    С идентификаторами всех 3-х онтологий GO 4023 Organism Name Danio rerio & DBxref_ GO: & F: & P: & C:
    ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]))
    В том числе в аппарате Гольджи *, ** 10 Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & GO:0005794
    ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & (((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:GO:0005794*]))
    В том числе только с самыми хорошими доказательствами функции (коды только IDA и TAS) 0
    Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & GO:0005794 & (IDA: | TAS: !ISS: ! IEA: ! IMP: ! IGI: ! IPI: ! RCA: ! IEP: ! NAC: ! IC: ! ND:)
    В том числе те, у которых встречается хотя бы один раз самое хорошее доказательство функции (есть коды IDA или TAS) 0 Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & GO:0005794 & (IDA: | TAS:)

    * - вариант запроса для аппарата Гольджи (по сути тот же, что и в таблице - только в задании все-таки указывается на идентификатор GO) - Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi apparatus - ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & (((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi apparatus*]));

    В ходе поиска оказалось, что белков с хорошим доказательством функций (код обоснования аннотации - IDA, TAS) найдено не было; найденные в аппарате Гольджи белки (10 шт) имеют коды обоснования аннотации ISS (Inferred from Sequence Similarity; 3 белка) и IEA (Inferred from Electronic Annotation; 7 белков) - низкое качество... Хороших доказательств функции (например, по данным оригинальной статьи) обнаружено не было.

    *, ** - Вопрос: а как вообще еще можно вести поиск, начиная с пункта "В том числе в аппарате Гольджи"? (если предположить, что ищем не по идентификатору GO:0005794 (наиболее полно описывает локализацию белков в аппарате Гольджи)). Просто тут есть такой вариант: указываем в строке запроса

    Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi

    ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & (((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi*]))


    В таком случае, число находок увеличивается. Теперь их 24 и среди них есть, например, белки, которые участвуют в везикулярном переносе (например, между аппаратом Гольджи и ЭПР).
    Конкретный пример: "новый" белок Q6PFM7; онтология - где? - C:Golgi membrane; идентификатор GO:0000139 - "часть" аппарата Гольджи (билипидный слой, окружающий любой из компартментов АГ). Тогда для другого, без идентификатора варианта поиска:

      Количество записей Запрос
    В том числе в аппарате Гольджи ** 24 Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi

    ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & (((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi*]))

    В том числе только с самыми хорошими доказательствами функции (коды только IDA и TAS) 1 Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi & (IDA: | TAS: !ISS: ! IEA: ! IMP: ! IGI: ! IPI: ! RCA: ! IEP: ! NAC: ! IC: ! ND:) ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & ((((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi*]) & ((((((((((([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*]) ! [uniprot-DBxref_:ISS:*]) ! [uniprot-DBxref_:IEA:*]) ! [uniprot-DBxref_:IMP:*]) ! [uniprot-DBxref_:IGI:*]) ! [uniprot-DBxref_:IPI:*]) ! [uniprot-DBxref_:RCA:*]) ! [uniprot-DBxref_:IEP:*]) ! [uniprot-DBxref_:NAC:*]) ! [uniprot-DBxref_:IC:*]) ! [uniprot-DBxref_:ND:*])))
    В том числе те, у которых встречается хотя бы один раз самое хорошее доказательство функции (есть коды IDA или TAS) 2 Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi & (IDA: | TAS:)
    ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & ((((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi*]) & ([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*])))

    Оказывается, для 1 белка - Q5W7F1 - приведено только хорошее доказательство функции (IDA).

    Итак, плоховато, прямо скажем, присвоены в UniProt идентификаторы GO для функций белков Danio rerio: только для 19% всех белков протеома имеются все 3 идентификаторы GO; для интересующих меня белков аппарата Гольджи также "полных аннотаций" (т.е. все 3 идентификатора) мало (около 0.05%); причем для абсолютного большинства из них по кодам аннотации можно судить о низком качестве аннотации.

    А приведенные 2 "варианта поиска" (2 разных подхода к решению одной задачи) поучительны в смысле трактовки задания. И это еще одно доказательство необходимости применения единой формальной терминологии при создании качественной аннотации. И понимания вообще.

Дополнительные упражнения.

  Онтология GO (имя) Количество ассоциированных терминов GO Краткий ответ на вопрос Данные EcoCyc
Где? Клеточный компонент (component) 1 В периплазматическом пространстве (это пространство между внутренней (цитоплазматической) и наружной мембранами (Грам-отрицательные бактерии; а, например, для грибов - про-во между мембраной и клеточной стенкой); GO ID: GO:0042597) та же информация
Зачем, для чего? Биологический процесс (process) 2 Участие в метаболизме аминокислот (=рацемизации L-аминокислот; GO:0006520); в метаболизме аспарагина (GO:0006528). Особая роль в синтезе аспартата и аспарагина; катаболизм аминокислот
Молекулярный механизм? Функция (function) 3
(2+1)
  • аспарагиназная активность: катализ реакции L-asparagine + H2O = L-aspartate + NH3 (GO:0004067);
  • гидролазная активность: катализ гидролиза различных связей (например, C-O, C-N, C-C, фосфорно-ангидридных и пр.; GO:0016787 ).
L-asparagine + H2O <=> L-aspartate + ammonia
(подчеркивается обратимость реакции)
Специфичность? - - "Прямой" информации нет. Но по данным InterPro: IPR004550 (для GO:0004067), существует близких семейства аспарагиназ, причем L-аспарагиназа II - высокоаффинный белок (обладает высокой степенью сродства к субстрату), в то время как L-аспарагиназа I - низкоаффинный белок. Подтверждается высокое сродство L-аспарагиназы II к субстрату; указывается на зависимость активности от уровня кислорода

їNADEZDA TUKHTUBAEVA,2007