Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~igogo/Term4/function.html
Дата изменения: Tue Apr 3 18:48:07 2007 Дата индексирования: Tue Oct 2 08:48:03 2012 Кодировка: Windows-1251 |
На главной странице БД GOA в поле запроса вводится AC UniProt белка L-аспарагиназы - P00805. В результате открывается страничка со списком всех терминов GO, ассоциированным с данной записью UniProt. По данным этой странички заполняется таблица следующего вида:
Онтология GO (имя) | Количество ассоциированных терминов GO | Краткий ответ на вопрос | |
---|---|---|---|
Где? | Клеточный компонент (component) | 1 | В периплазматическом пространстве (это пространство между внутренней (цитоплазматической) и наружной мембранами (Грам-отрицательные бактерии; а, например, для грибов - про-во между мембраной и клеточной стенкой); GO ID: GO:0042597) |
Зачем, для чего? | Биологический процесс (process) | 2 | Участие в метаболизме аминокислот (=рацемизации L-аминокислот; GO:0006520); в метаболизме аспарагина (GO:0006528). |
Молекулярный механизм? | Функция (function) | 2 (3 находки) |
|
Специфичность? | - | - | "Прямой" информации нет. Но по данным InterPro: IPR004550 (для GO:0004067), существует близких семейства аспарагиназ, причем L-аспарагиназа II - высокоаффинный белок (обладает высокой степенью сродства к субстрату), в то время как L-аспарагиназа I - низкоаффинный белок. |
Все данные представлены по результатам электронной аннотации - IEA. В разделе "Источники" - "Source" - yказаны БД InterPro и UniProt (наблюдение: в разделе "function" количество ассоциированных терминов GO - 3, но 2 из них - одинаковые (GO:0004067 для InterPro и UniProt Enzyme Code)).
На страничках имеются графы, отражающие связи между терминами.
"Тренировка в поиске":
P15650 | P70618 | P51650 | |
---|---|---|---|
митохондриальный белок | + | + | |
ядерный белок |   | + |   |
белок с самым низким качеством аннотации (термины присвоены по ISS) |   | + |   |
Теперь непосредственно задача: оценить, насколько хорошо аннотированы в UniProt функции белков Danio rerio аппарата Гольджи.
Результаты - см. таблицу (курсивом в строке с запросом выделяется выбранное поле (раздел) поиска):
Протеом Danio rerio Результаты поиска в UniProt, исправлено 02.04.2007 г.
Количество записей | Запрос | |
Всего | 20343 | Organism Name Danio rerio
(([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) |
С идентификаторами всех 3-х онтологий GO | 4023 | Organism Name Danio rerio & DBxref_ GO: & F: & P: & C:
((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*])) |
В том числе в аппарате Гольджи *, ** | 10 | Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & GO:0005794
((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & (((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:GO:0005794*])) |
В том числе только с самыми хорошими доказательствами функции (коды только IDA и TAS) | 0 |
Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & GO:0005794 & (IDA: | TAS: !ISS: ! IEA: ! IMP: ! IGI: ! IPI: ! RCA: ! IEP: ! NAC: ! IC: ! ND:) |
В том числе те, у которых встречается хотя бы один раз самое хорошее доказательство функции (есть коды IDA или TAS) | 0 | Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & GO:0005794 & (IDA: | TAS:) |
* - вариант запроса для аппарата Гольджи (по сути тот же, что и в таблице - только в задании все-таки указывается на идентификатор GO) - Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi apparatus - ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & (((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi apparatus*]));
В ходе поиска оказалось, что белков с хорошим доказательством функций (код обоснования аннотации - IDA, TAS) найдено не было; найденные в аппарате Гольджи белки (10 шт) имеют коды обоснования аннотации ISS (Inferred from Sequence Similarity; 3 белка) и IEA (Inferred from Electronic Annotation; 7 белков) - низкое качество... Хороших доказательств функции (например, по данным оригинальной статьи) обнаружено не было.
*, ** - Вопрос: а как вообще еще можно вести поиск, начиная с пункта "В том числе в аппарате Гольджи"? (если предположить, что ищем не по идентификатору GO:0005794 (наиболее полно описывает локализацию белков в аппарате Гольджи)). Просто тут есть такой вариант: указываем в строке запроса
Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi
((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & (((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi*]))
Количество записей | Запрос | |
В том числе в аппарате Гольджи ** | 24 | Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi
((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & (((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi*])) |
В том числе только с самыми хорошими доказательствами функции (коды только IDA и TAS) | 1 | Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi & (IDA: | TAS: !ISS: ! IEA: ! IMP: ! IGI: ! IPI: ! RCA: ! IEP: ! NAC: ! IC: ! ND:) ((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & ((((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi*]) & ((((((((((([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*]) ! [uniprot-DBxref_:ISS:*]) ! [uniprot-DBxref_:IEA:*]) ! [uniprot-DBxref_:IMP:*]) ! [uniprot-DBxref_:IGI:*]) ! [uniprot-DBxref_:IPI:*]) ! [uniprot-DBxref_:RCA:*]) ! [uniprot-DBxref_:IEP:*]) ! [uniprot-DBxref_:NAC:*]) ! [uniprot-DBxref_:IC:*]) ! [uniprot-DBxref_:ND:*]))) |
В том числе те, у которых встречается хотя бы один раз самое хорошее доказательство функции (есть коды IDA или TAS) | 2 | Organism Name Danio rerio & DBxref_ GO: & F: & P: & C: & C:Golgi & (IDA: | TAS:)
((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & ((((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:C:Golgi*]) & ([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*]))) |
Оказывается, для 1 белка - Q5W7F1 - приведено только хорошее доказательство функции (IDA).
Итак, плоховато, прямо скажем, присвоены в UniProt идентификаторы GO для функций белков Danio rerio: только для 19% всех белков протеома имеются все 3 идентификаторы GO; для интересующих меня белков аппарата Гольджи также "полных аннотаций" (т.е. все 3 идентификатора) мало (около 0.05%); причем для абсолютного большинства из них по кодам аннотации можно судить о низком качестве аннотации.
А приведенные 2 "варианта поиска" (2 разных подхода к решению одной задачи) поучительны в смысле трактовки задания. И это еще одно доказательство необходимости применения единой формальной терминологии при создании качественной аннотации. И понимания вообще.
На странице БД GOA со списком всех терминов GO, ассоциированным с нужной записью UniProt - AC P00805 (см. упр.2. выше)
отмечаются галочкой все термины и нажимается кнопка View selected terms in context. На открывшемся графе показаны связи между терминами.
Как обозначаются связи разных типов:
т.е. метаболизм аминокислот - частный случай процессов "метаболизм карбоновых аминокислот", "метаболизм аминокислот и их производных", "метаболизм аминов" (это родительские термины для термина "метаболизм аминокислот");
например, метаболизм аминов означает "метаболизм производных аммиака, "полученных" замещением
в нем атомов водорода на углеводородные радикалы" (аминокислоты - "частный случай" аминов);
а под "метаболизмом карбоновых аминокислот" понимается метаболизм производных углеводородов, содержащих в молекуле группировку СООН (в том числе и аминокислот, которые являются производными карбоновых кислот (сод. группировку -NH2 при С-альфа атоме)).
А вот пример, содержащий связи типа "is a" и "part of":
"Часть клетки" - частный случай понятия "Клеточный компонент" (is a); в то время как понятия "клетка" и "часть клетки" связаны отношением "part of": не все то, что относится к "части клетки", является обязательным компонентом "клетки", а может быть характерно только для определенного типа клеток (например, дочерним термином для "части клетки" (GO:0044464) является термин "аксонный холмик" (GO:0043203) - основание аксона (! только для клеток нервной ткани) ). Т.е. "cell part" не является обязательным компонентом "cell".Онтология GO (имя) | Количество ассоциированных терминов GO | Краткий ответ на вопрос | Данные EcoCyc | |
---|---|---|---|---|
Где? | Клеточный компонент (component) | 1 | В периплазматическом пространстве (это пространство между внутренней (цитоплазматической) и наружной мембранами (Грам-отрицательные бактерии; а, например, для грибов - про-во между мембраной и клеточной стенкой); GO ID: GO:0042597) | та же информация |
Зачем, для чего? | Биологический процесс (process) | 2 | Участие в метаболизме аминокислот (=рацемизации L-аминокислот; GO:0006520); в метаболизме аспарагина (GO:0006528). | Особая роль в синтезе аспартата и аспарагина; катаболизм аминокислот |
Молекулярный механизм? | Функция (function) | 3 (2+1) |
|
L-asparagine + H2O <=> L-aspartate + ammonia (подчеркивается обратимость реакции) |
Специфичность? | - | - | "Прямой" информации нет. Но по данным InterPro: IPR004550 (для GO:0004067), существует близких семейства аспарагиназ, причем L-аспарагиназа II - высокоаффинный белок (обладает высокой степенью сродства к субстрату), в то время как L-аспарагиназа I - низкоаффинный белок. | Подтверждается высокое сродство L-аспарагиназы II к субстрату; указывается на зависимость активности от уровня кислорода |
Приводятся ссылки на экспериментальные статьи - это подтверждение высокой надежности данных.
Расшифровка кодов:
экспериментальныe доказательства:
компьютерные доказательства:
недостоверные/код не присвоен:
** - вообще, трудно отнести к чисто экспериментальным/компьютерным доказательствам.
Предлагается оценить долю компьютерных аннотаций GO в UniProt для белков из аппарата Гольджи (организм Danio rerio); это значит,
что в документах, найденных по соответствующему запросу нужно определить суммарное число идентификаторов GO (грубо говоря, сколько строчек с идентификатором встречается в документе - технически,
решается эта задача использованием команды "grep") и число строчек, в которых имеются идентификаторы GO с компьютерным аннотированием.
Для решения поставленной задачи необходимо изучить все возможности SRS-поиска и использовать расширенную форму поиска (Extended Query Form; хотя, наверно, можно эту задачу решить и стандартным поиском...).
В соответствующие поля 'OrganismName', 'DBxref' вносим запросы "Danio rerio", "GO:0005794"; далее - в левом окошке вносим параметры "Combine search terms..." - "&", "View results using: UniProt", "Create a list" и запускаем поиск. Строка запроса:
((([uniprot-Organism:Danio*] & [uniprot-Organism:rerio*]) | [uniprot-Organism:Danio rerio*]) & [uniprot-DBxref_:GO:0005794*])
В результате получаем "выдержки" 9 документов; выдача сохранена в текстовом файле.
ВНИМАНИЕ! Результаты поиска приведены по состоянию на 22.03.2007!!!!
Полученный файл подается на вход программе grep; вот вид команды:
grep GO: res.txt -c(параметр -c для подсчета числа интересующих строк). Результат: 56 строк, содержащих идентификаторы GO.
grep GO:.*ISS: res.txt -сРезультат: 31 строка.
grep GO:.*IЕА: res.txt -сРезультат: 25 строк.
Абсолютное преобладание доли компьютерных аннотаций GO (идентификаторов GO с другими типами аннотаций найдено не было), объясняется тем, что компьютерное аннотирование значительно проще экспериментального (котороe сложно технически + долго по времени
[несмотря на то, что Danio rerio - один из наиболее популярных объектов биологии развития позвоночных животных, благодаря легкости культивирования, получения массового материала, быстроте наступления репродуктивного периода (около трех месяцев), высокой скорости эмбрионального развития и возможности получения гаплоидного потомства (что облегчает его генетический анализ), прозрачности зародыша (удобство для микроскопирования и киносъемки) - активное
"пристально" изучается сранительно недавно]).