Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~Lan787/term4_files/go.htm
Дата изменения: Sat Apr 22 15:21:16 2006 Дата индексирования: Tue Oct 2 08:42:09 2012 Кодировка: Windows-1251 |
В записи моего белка в банке UniProt я выбрал наиболее четко определяющее ключевое слово для моего белка: оксидоредуктаза. На сайте GO http://www.geneontology.org я произвел поиск терминов содержащих мое ключевое слово.
Мое внимание привлек термин: intramolecular oxidoreductase activity, transposing C=C bonds - внутримолекулярная оксидоредуктазная активность, перемещение двойных СС связей.
Далее опишу его подробней:
Мне нужно было изучить качество аннотаций цитоплазматических белков человека, заполнив предложенную таблицу (см. табл 2). Самой хорошей аннотацией считалась та, у которой все утверждения хорошо обоснованы, т. е. термин GO имеет самый "убедительный" код доказательства. У самой плохой аннотации наоборот: все утверждения плохо обоснованны. При определении самых убедительных и неубедительных кодов доказательств, я пользовался иерархией кодов доказательств, представленной на сайте http://www.geneontology.org
уровень | код | расшифровка |
---|---|---|
1 | TAS | Traceable Author Statement |
IDA | Inferred from Direct Assay | |
2 | IMP | Inferred from Mutant Phenotype |
IGI | Inferred from Genetic Interaction | |
IPI | Inferred from Physical Interaction | |
3 | ISS | Inferred from Sequence Similarity |
IEP | Inferred from Expression Pattern | |
4 | NAS | Non-traceable Author Statement |
5 | IEA | Inferred from Electronic Annotation |
Количество белков | Запрос | |
---|---|---|
Всего | 71112 | (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]) |
С идентификаторами всех 3-х онтологий GO | 18233 | "((([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]) & (([uniprot-DBxref_:C:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*])) |
В том числе в цитоплазме | 970 | ("((([uniprot-Organism:Homo] & [uniprot-Organism:sapiens]) | [uniprot-Organism:Homo sapiens]) & (([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:cytoplasm]) & [uniprot-DBxref_:P:*])) |
В том числе только с самыми хорошими доказательствами функции (TAS/IDA) | 156 | ((([uniprot-Organism:Homo] & [uniprot-Organism:sapiens]) | [uniprot-Organism:Homo sapiens]) & (((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:cytoplasm]) & [uniprot-DBxref_:P:*]) & ([uniprot-DBxref_:TAS.] | [uniprot-DBxref_:IDA.])) ! (((((([uniprot-DBxref_:IMP.] | [uniprot-DBxref_:IGI.]) | [uniprot-DBxref_:IPI.]) | [uniprot-DBxref_:ISS.]) | [uniprot-DBxref_:IEP.]) | [uniprot-DBxref_:NAS.]) | [uniprot-DBxref_:IEA.]))) |
В том числе только с самыми плохими доказательствами функции (IEA) | 378 | ((([uniprot-Organism:Homo] & [uniprot-Organism:sapiens]) | [uniprot-Organism:Homo sapiens]) & (((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:cytoplasm]) & [uniprot-DBxref_:P:*]) ! ((((((([uniprot-DBxref_:TAS.] | [uniprot-DBxref_:IDA.]) | [uniprot-DBxref_:IMP.]) | [uniprot-DBxref_:IGI.]) | [uniprot-DBxref_:IPI.]) | [uniprot-DBxref_:ISS.]) | [uniprot-DBxref_:IEP.]) | [uniprot-DBxref_:NAS.])) & [uniprot-DBxref_:IEA.])) |
Данная таблица (?2) в моей группе цитоплазматических белков человека выделяет две подгруппы белков: только с самыми хоршими, и только с самыми плохими аннотациями. Эти две подгруппы составляют чуть больше половины белков от моей группы (509 из 880). Как обстоит дело с аннотациями в другой группе из этой таблицы узнать невозможно. Поэтому я решил произвести поиск белков с другими качествами аннотаций. Я расширил группу "только с самыми хорошими аннотациями (TAS/IDA)" до TAS/IDA плюс следующий уровень качества доказательств (IMP/IGI/IPI). Тоже самое я сделал с группой "только с самыми плохими аннотациями (IEA) - расширил ее до IEA/NAS", Полученные группы расширил еще на один уровень, итд... Затем составил диаграмму:
Цифрами 1/2/3/4 обозначены уровни в иерархии доказательств из табл. 1 Диаграмма устроена следующим образом: справа расположенны столбики плохих аннотаций, слева - хороших, при движении к центру, группы дополняются еще одним уровнем. Данная диаграмма дает дополнительную информацию о качестве аннотаций. Заметим, что почти все столбики справа (плохие аннотации) выше столбиков слева (хорошие аннотации), значит в группе преобладают белки с не очень хорошими аннотациями. Правые столбики имеют малый прирост, значит плохие аннотации в большинстве имеют IEA код доказательств. Левые столбики наоборот растут высокими темпами, что свидетельствует о том, что "хорошие" аннотаци содержат в основном не только TAS/IDA,а TAS/IDA вместе с другими кодами. Четвертый столбик слева имеет большой прирост в отношении третьего, значит можно сделать вывод, что значительная часть около 200 белков имеют 4-й уровень кодов доказательств (NAS), причем вместе с TAS/IDA, а не IEA, т.к. правый столбик не имеет такой прирост. Очень болюшая группа белков имеют как TAS/IDA так и IEA коды доказательств, так как центральный столбик (all) имеет очень большой прирост. Таким образом, благодаря данной диаграмме мы имеем некоторое представление о распределении кодов доказательств в моей группе белков, в дополнение к информации из табл.2. |
Ради интереса я сравнил полученй результат, с данными полученными поиском по банку SwissProt а не Uniprot. Кодов IEA в банке вообще не оказалось, поэтому самыми плохими считались доказательства NAS.
В этом банке преобладают белки с хорошим качеством аннотаций (левые столбики выше правых). Значит банк Uniprot больше SwissProt в основном благодаря белкам с плохим качеством аннотаций. |
В заключение отмечу, что многие аннотации цитоплазматических белков человека содержат большое число терминов GO, так например, запись 1433F_HUMAN содержит 19 терминов GO. Естественно один из такого числа терминов может иметь плохой код доказательства при хороших остальных, и из-за этого блок может попасть в группу белков с плохими доказательствами (или ни в одну из них).