Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Lan787/term4_files/go.htm
Дата изменения: Sat Apr 22 15:21:16 2006
Дата индексирования: Tue Oct 2 08:42:09 2012
Кодировка: Windows-1251
База онтологий GeneOntology (GO)

База онтологий GeneOntology (GO)

На главную

1. Знакомство со структурой GO

В записи моего белка в банке UniProt я выбрал наиболее четко определяющее ключевое слово для моего белка: оксидоредуктаза. На сайте GO http://www.geneontology.org я произвел поиск терминов содержащих мое ключевое слово.

Мое внимание привлек термин: intramolecular oxidoreductase activity, transposing C=C bonds - внутримолекулярная оксидоредуктазная активность, перемещение двойных СС связей.

Далее опишу его подробней:

Взаимотношения part_of более сложные чем is_a. is_a обозначает, что дочерний термин полностью принадлежит родительскому, и при этом родительский термин содержит в себе дочерний. При взаимотношении part_of родительский термин не всегда содержит дочерний, однако, дочерний термин всегда входит в родительский.

2. Оценка качества аннотаций в записях белков моей группы

Мне нужно было изучить качество аннотаций цитоплазматических белков человека, заполнив предложенную таблицу (см. табл 2). Самой хорошей аннотацией считалась та, у которой все утверждения хорошо обоснованы, т. е. термин GO имеет самый "убедительный" код доказательства. У самой плохой аннотации наоборот: все утверждения плохо обоснованны. При определении самых убедительных и неубедительных кодов доказательств, я пользовался иерархией кодов доказательств, представленной на сайте http://www.geneontology.org

"Табл. 1 Иерархия кодов доказательств (расположенны в порядке падения доверия):
уровенькодрасшифровка
1TASTraceable Author Statement
IDAInferred from Direct Assay
2IMPInferred from Mutant Phenotype
IGIInferred from Genetic Interaction
IPIInferred from Physical Interaction
3ISSInferred from Sequence Similarity
IEPInferred from Expression Pattern
4NASNon-traceable Author Statement
5IEAInferred from Electronic Annotation

Протеом Homo sapiens. Результаты поиска в UniProt по организму, 22.04.2006 г.
  Количество белков Запрос
Всего 71112 (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*])
С идентификаторами всех 3-х онтологий GO 18233 "((([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]) & (([uniprot-DBxref_:C:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]))
В том числе в цитоплазме 970 ("((([uniprot-Organism:Homo] & [uniprot-Organism:sapiens]) | [uniprot-Organism:Homo sapiens]) & (([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:cytoplasm]) & [uniprot-DBxref_:P:*]))
В том числе только с самыми хорошими доказательствами функции (TAS/IDA) 156 ((([uniprot-Organism:Homo] & [uniprot-Organism:sapiens]) | [uniprot-Organism:Homo sapiens]) & (((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:cytoplasm]) & [uniprot-DBxref_:P:*]) & ([uniprot-DBxref_:TAS.] | [uniprot-DBxref_:IDA.])) ! (((((([uniprot-DBxref_:IMP.] | [uniprot-DBxref_:IGI.]) | [uniprot-DBxref_:IPI.]) | [uniprot-DBxref_:ISS.]) | [uniprot-DBxref_:IEP.]) | [uniprot-DBxref_:NAS.]) | [uniprot-DBxref_:IEA.])))
В том числе только с самыми плохими доказательствами функции (IEA) 378 ((([uniprot-Organism:Homo] & [uniprot-Organism:sapiens]) | [uniprot-Organism:Homo sapiens]) & (((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:cytoplasm]) & [uniprot-DBxref_:P:*]) ! ((((((([uniprot-DBxref_:TAS.] | [uniprot-DBxref_:IDA.]) | [uniprot-DBxref_:IMP.]) | [uniprot-DBxref_:IGI.]) | [uniprot-DBxref_:IPI.]) | [uniprot-DBxref_:ISS.]) | [uniprot-DBxref_:IEP.]) | [uniprot-DBxref_:NAS.])) & [uniprot-DBxref_:IEA.]))

Данная таблица (?2) в моей группе цитоплазматических белков человека выделяет две подгруппы белков: только с самыми хоршими, и только с самыми плохими аннотациями. Эти две подгруппы составляют чуть больше половины белков от моей группы (509 из 880). Как обстоит дело с аннотациями в другой группе из этой таблицы узнать невозможно. Поэтому я решил произвести поиск белков с другими качествами аннотаций. Я расширил группу "только с самыми хорошими аннотациями (TAS/IDA)" до TAS/IDA плюс следующий уровень качества доказательств (IMP/IGI/IPI). Тоже самое я сделал с группой "только с самыми плохими аннотациями (IEA) - расширил ее до IEA/NAS", Полученные группы расширил еще на один уровень, итд... Затем составил диаграмму:

Цифрами 1/2/3/4 обозначены уровни в иерархии доказательств из табл. 1 Диаграмма устроена следующим образом: справа расположенны столбики плохих аннотаций, слева - хороших, при движении к центру, группы дополняются еще одним уровнем.

Данная диаграмма дает дополнительную информацию о качестве аннотаций. Заметим, что почти все столбики справа (плохие аннотации) выше столбиков слева (хорошие аннотации), значит в группе преобладают белки с не очень хорошими аннотациями. Правые столбики имеют малый прирост, значит плохие аннотации в большинстве имеют IEA код доказательств. Левые столбики наоборот растут высокими темпами, что свидетельствует о том, что "хорошие" аннотаци содержат в основном не только TAS/IDA,а TAS/IDA вместе с другими кодами. Четвертый столбик слева имеет большой прирост в отношении третьего, значит можно сделать вывод, что значительная часть около 200 белков имеют 4-й уровень кодов доказательств (NAS), причем вместе с TAS/IDA, а не IEA, т.к. правый столбик не имеет такой прирост. Очень болюшая группа белков имеют как TAS/IDA так и IEA коды доказательств, так как центральный столбик (all) имеет очень большой прирост.

Таким образом, благодаря данной диаграмме мы имеем некоторое представление о распределении кодов доказательств в моей группе белков, в дополнение к информации из табл.2.

Ради интереса я сравнил полученй результат, с данными полученными поиском по банку SwissProt а не Uniprot. Кодов IEA в банке вообще не оказалось, поэтому самыми плохими считались доказательства NAS.
В этом банке преобладают белки с хорошим качеством аннотаций (левые столбики выше правых). Значит банк Uniprot больше SwissProt в основном благодаря белкам с плохим качеством аннотаций.

В заключение отмечу, что многие аннотации цитоплазматических белков человека содержат большое число терминов GO, так например, запись 1433F_HUMAN содержит 19 терминов GO. Естественно один из такого числа терминов может иметь плохой код доказательства при хороших остальных, и из-за этого блок может попасть в группу белков с плохими доказательствами (или ни в одну из них).