Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~lu.andreeva/go.html
Дата изменения: Fri May 28 16:04:10 2010
Дата индексирования: Tue Oct 2 00:30:57 2012
Кодировка: Windows-1251
GO

Учебный сайт Люды Андреевой


Знакомство с терминологией GO

В БД UniProt был найден белок ACEA_ECOLI (изоцитратная лиаза). Воспользовавшись ссылкой "Complete GO annotation...", была открыта таблица, некоторые данные из которой представлены ниже:

Описание функции белка ACEA_ECOLI в соответствии с GO-аннотацией

  Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
(краткое описание, близкое к тексту определения термина(ов) GO
Где? Component 1 расположен в цитоплазме
Зачем, для чего? Biological Process 4 метаболизм карбоновых кислот, глиоксилатный цикл (вариант цикла трикарбоновых кислот, встречается у некоторых растений и микроорганизмов, изоцитрат расщепляется на глиоксилат и сукцинат), цикл трикарбоновых кислот (ацетильная группа ацетил-СоА присоединяется к оксалоацетату с образованием цитрата)
Молекулярный механизм? Molecular Function 3 изоцитратлиазная активность (катализирует обратимое расщепление изолимонной кислоты до глиоксиловой и янтарной: изоцитрат = сукцинат + глиоксилат), лиазная активность (расщепляет связи С-С, С-О, С-N с помощью гидролиза или окисления)
Специфичность? Molecular Function 1 Субстратная специфичность: изоцитрат. Изоцитратная лиаза расщепляет только (1R, 2S)-1-гидрокси-1,2,3-пропантрикарбоновую кислоту

Описание термина GO


Из каждого словаря GO было выбрано по термину, ассоциированному с белком. Их описание приведено ниже.

Описание терминов GO

GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
GO:0006099 citric acid cycle
Krebs cycle
TCA cycle
GO:0046356: отвечает за распад ацетил-СоА и образование производной коэнзима A, в которой SH-группа ацетилирована, связь is_a
GO:0009060: аэробное дыхание, каталитическое высвобождение энергии из органических соединений (в основном углеводов и жиров), требующее кислород в качестве конечного акцептора электронов. Связь: part_of
GO:0004451 ICL activity
isocitrate activity
isocitratase activity
isocitrate glyoxylate-lyase (succinate-forming)
isocitrate glyoxylate-lyase activity
isocitritase activity
threo-DS-isocitrate glyoxylate-lyase activity
GO:0016833: лиаза оксокислот, связь is_a нет
GO:0005737 нет GO:0044424: внутриклеточный компонент, связь is_a GO:0044444: цитоплазматический компонент, связь part_of
GO:0045495: на полюсах в цитоплазме, связь part_of
GO:0016528: саркоплазма, связь part_of

Ссылки на графы родительских, дочерних терминов и терминов-сибсов:
GO:0006099
GO:0004451
GO:0005737

Оценка качества функциональной аннотации белков в UniProt

Определение числа реальных и гипотетических белков из Bos taurus

Таксон корова (cow (англ.), Bos taurus (лат.)) в БД Taxonomy на сайте NCBI имеет ранг вида (species) и идентифицируется как 9913 (NCBI_TaxID).
Изучим, как в SRS проиндексировано поле ProteinExistence БД UniProt.
Поле ProteinExistence (сокращенно - poex) принимает следующие значения:
Evidence at protein level (существование белка доказано экспериментально)
Evidence at transcript level (существование белка предположили из-за наличия продуктов экспрессии)
Inferred from homology (существование белка предполагают из-за наличия ортологов в близкородственных видах)
Predicted (не доказано существование белка)
Uncertain (доказательство существования белка ненадежно)

Соотношение между реальными и гипотетическими белками из Bos taurus (по данным UniProt)

  Количество в UniProt Количество в UniRef100
Существование белка доказано экспериментально 1353 1363
Известны только соответствующие транскрипты 11853 11670
Гипотетический белок, предсказан по гомологии 885 949
Иные предсказанные гипотетические белки 1605 1418

В UniProt и UniRef100 соотношение между количествами белков разных степеней обоснованности одинаково, и наибольшее число белков предсказаны по транскриптам (~75%), что не удивительно, т.к. эксперименты по выявлению белка гораздо более трудоемки, чем по выявлению его транскриптов. Количества белков, доказанных экспериментально, и белков, предсказанных сомнительными методами, практически совпадают (~9%). Менее всего белков, предсказанных по гомологии (~5%).
Количество документов в Uniref100, в которых существование белка доказано экспериментально, и представлен белок, предсказанный по гомологии, больше, чем в UniProt, так как существует много повторений одной информации: ссылки и т.п.

Определение качества функциональной аннотации в UniProt

Будем искать реальные белки Bos taurus, которые аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции.
Коды экспериментального доказательства функции:
EXP: Inferred from Experiment
IDA: Inferred from Direct Assay
IPI: Inferred from Physical Interaction
IMP: Inferred from Mutant Phenotype
IGI: Inferred from Genetic Interaction
IEP: Inferred from Expression Pattern
Был составлен запрос:
(((([uniprot-Species:Bos*] & [uniprot-Species:taurus*]) | [uniprot-Species:Bos taurus*]) & ((((([uniprot-ProteinExistence:1:*] & [uniprot-ProteinExistence:Evidence*]) & [uniprot-ProteinExistence:at*]) & [uniprot-ProteinExistence:protein*]) & [uniprot-ProteinExistence:level*]) | [uniprot-ProteinExistence:1: Evidence at protein level*])) & ((((([uniprot-DBxref_:EXP*] | [uniprot-DBxref_:IDA*]) | [uniprot-DBxref_:IPI*]) | [uniprot-DBxref_:IMP*]) | [uniprot-DBxref_:IGI*]) | [uniprot-DBxref_:IEP*]))
Последовательности найденных белков можно посмотреть в файле.
Найдено 1194 записи. Это немногим меньше количества всех белков, доказанных экспериментально. Следовательно, белки данного таксона хорошо изучены.

Использование GO для работы с массовыми данными

Получение выборки последовательностей белков с заданной функцией

На сайте консорциума Gene Ontology был проведен поиск функции биосинтеза пиримидинов среди всех терминов GO (всего 17 находок). Выбран идентификатор GO GO:0006221 (pyrimidine nucleotide biosynthetic process), относящийся к словарю biological process.
В SRS-поиске был составлен запрос: ([uniprot-DBxref_:GO:0006221*] & (([uniprot-Species:Bos*] & [uniprot-Species:taurus*]) | [uniprot-Species:Bos taurus*]))
Найдено 2 белка из таксона Bos taurus с данной функцией. Результаты поиска можно увидеть здесь.

Определение главной функции в большом списке белков


С помощью GOstat определяем, белки с какой функцией доминируют в списке P0A9G6. P-value лучших находок не меньше 13 порядка:

GO ID Название (функция) Онтология P-value
GO:0006097 glyoxylate cycle biological process 3.96e-13
GO:0046487 glyoxylate metabolic process biological process 6.25e-13
GO:0006081 cellular aldehyde metabolic process biological process 3.89e-11
GO:0044248 cellular catabolic process biological process 1.83e-06
GO:0006099 tricarboxylic acid cycle biological process 2.04e-06
GO:0046356 acetyl-CoA catabolic process biological process 2.04e-06
GO:0009109 coenzyme catabolic process biological process 2.04e-06
GO:0051187 cofactor catabolic process biological process 2.05e-06
GO:0006084 acetyl-CoA metabolic process biological process 2.13e-06
GO:0009056 catabolic process biological process 2.13e-06
GO:0044262 cellular carbohydrate metabolic process biological process 1.44e-05
GO:0032787 monocarboxylic acid metabolic process biological process 3.2e-05
GO:0019752 carboxylic acid metabolic process biological process 4.33e-05
GO:0006082 organic acid metabolic process biological process 4.37e-05

Помимо включенных в таблицу результатов, поиск выдал еще 17 результатов с p-value<0.01. P-value находок уменьшается плавно, без скачка. Для достоверности я ограничилась находками с p-value<10e-5.
Как видно из таблицы, белки функционируют в цитоплазме и участвуют в метаболизме и катаболизме карбоновых кислот, в частонсти, доминантные белки отвечают за катаболизм ацетил-CoA.


©Andreeva_2010