Главная
I Семестр
II Семестр
III Семестр
IV Семестр
Проекты
Обратная Связь
|
Функции. Онтологии базы данных GO.
- Знакомство с терминологией GO
- Описание функции белка с помощью аннотации Gene Ontology
Открыл страницу UniProt с описанием белка
GLK_ECOLI.
Перешел по гиперссылке "Complete GO annotation..." на страницу браузера QuickGO EBI.
Рассмотрел открывшуюся таблицу и нашел гиперссылки на странички с описанием терминов.
Полученные результаты записал в таблицу.
Описание функции белка GLK_ECOLI в соответствии с GO-аннотацией
|
Онтология GO (название словаря) |
Количество разных ассоциированных терминов GO |
Функция белка
(краткое описание, близкое к тексту определения термина(ов) GO |
Где? |
cellular component (клеточный компонент) - C |
1 |
GO:0005737: Цитоплазма (Все содержимое клетки, не включающее клеточную мембрану и ядро, но включающее
остальные внутриклеточные компоненты) |
Зачем, для чего? |
biological process (биологический процесс) - P |
1 |
GO:0006096: Гликолиз (Химическая реакция заключающаяся в расщеплении моносахарида (как правило глюкозы) в
пируват, с образованием небольшого количества АТФ. Пируват может быть превращен в этанол, лактат
или другие малые молекулы, или участвовать в цикле трикарбоновых кислот) |
Молекулярный механизм? |
molecular function (молекулярная функция) - F |
3 |
GO:0016740: Трансферазная активность (Катализирует перенос группы, например метильной, гликозильной, ацильной, фосфор-содержащей
и другие группы от одного or other groups, от одного компонента (выступает в качестве донора) к другому (являющимся акцептором))
GO:0016301: Киназная активность (Катализирует перенос фосфатной группы, как правило от АТФ к молекуле субстрата)
GO:0000166: Cвязывает нуклеотид (Селективное и нековалентное взаимодействие с нуклеотидом)
|
Специфичность? |
molecular function (молекулярная функция) - F |
2 |
GO:0004340: Глюкокиназная активность (Катализирует реакцию: АТФ + D-глюкоза = АДФ + D-глюкоза 6-фосфат)
GO:0005524: Cвязывает АТФ (Селективное и нековалентное взаимодействие с АТФ) |
- Описание термина GO
Выбрал 3 наиболее содержатальных, на мой взгляд, термина GO, ассоциированных с белком GLK_ECOLI,
по одному термину из каждого словаря GO. Выбрал из словоря P: glycolysis, из F: ATP binding, из C: cytoplasm.
Провел поиск описаний выбранных терминов на главном сайте
консорциума Gene Ontology. Полученные результаты
записал в таблицу.
Описание терминов GO
GO ID выбранного термина |
Список синонимов |
Список ближайших родительских терминов GO с указанием типа связи |
Список ближайших дочерних терминов GO с указанием типа связи |
GO:0006096 |
родственный синоним: анаэробный гликолиз (anaerobic glycolysis), модифицированный путь Embden-Meyerhof (modifed Embden-Meyerhof pathway)
alt_id: GO:0019641, GO:0019642
точный синоним: путь Embden-Meyerhof, путь Embden-Meyerhof-Parnas |
GO:0006007: glucose catabolic process, тип связи "is a"
GO:0006091: generation of precursor metabolites and energy, тип связи "is a" |
GO:0045821: positive regulation of glycolysis, тип связи "positively regulates"
GO:0006110: regulation of glycolysis, тип связи "regulates"
GO:0045820: negative regulation of glycolysis, тип связи "negatively regulates" |
GO:0005524 |
Нет синонимов |
GO:0032559: adenyl ribonucleotide binding, тип связи "is a" |
Дочерних терминов у этого термина нет. |
GO:0005737 |
Нет синонимов |
GO:0044424: intracellular part, тип связи "is a" |
GO:0044444: cytoplasmis part, тип связи "part of"
GO:0045495: pole plasm, тип связи "is a"
GO:0016528: sarcoplasm, тип связи "is a" |
Скачать файлы с изображением графа родительских, дочерних терминов и терминов-сибсов:
GO:0006096,
GO:0005524,
GO:0005737,
(более хорошее изображение графа GO:0005737).
- Оценка качества функциональной аннотации белков в UniProt
- Определение числа реальных и гипотетических белков из Triticum
Русское название: Пшеница
Английское название: Wheat
Латинское название: Triticum
Ранг таксона: род
NCBI_TaxID: 4564
Теперь обратимся к SRS и определим число реальных и гипотетических белков из пшеницы. Вначале изучим, как проиндексировано поле ProteinExistence.
Оно может принимать следующие значения:
1: evidence at protein level (cуществование белка доказано экспериментально);
2: evidence at transcript level (известны только соответствующие транскрипты);
3: inferred from homology (гипотетический белок, предсказанный по гомологии);
4: predicted (иные предсказанные гипотетические белки);
5: uncertain (существование белка не доказано).
Для того, чтобы определить количество записей в UniRef100 я воспользовался Excel. В результате чего получил
файл uniprot.xls и swiss.xls,
где на странице "uniref_all" стоят записи выданные SRS, а на странице "uniref_table"
с помощью сводной таблицы было определено количество уникальных записей.
Соотношение между реальными и гипотетическими белками из Triticum (по данным UniProt)
|
Количество в UniProt |
Количество в UniRef100 |
Существование белка доказано экспериментально |
155 |
153 |
Известны только соответствующие транскрипты |
2388 |
2369 |
Гипотетический белок, предсказан по гомологии |
596 |
499 |
Иные предсказанные гипотетические белки |
2766 |
2209 |
Существование большинства белков пшеницы(по данным Uniprot) обосновано на основе предсказания белки, но предсказанные не по гомологии белки.
На "втором месте" обосновано на транскриптах. Далее следуют белки, предсказанные по гомологии. Среди основных четырех групп меньше
всего белков, существование которых доказано экспериментально.
Соотношение между реальными и гипотетическими белками из Triticum (по данным SwissProt)
|
Количество в SwissProt |
Количество в UniRef100 |
Существование белка доказано экспериментально |
114 |
114 |
Известны только соответствующие транскрипты |
120 |
120 |
Гипотетический белок, предсказан по гомологии |
107 |
107 |
Иные предсказанные гипотетические белки |
3 |
3 |
Существование большинства белков пшеницы (по данным SwissProt) обосновано на транскриптах.
На "втором месте" белки, существование которых доказано экспериментально.
Далее следуют белки, предсказанные по гомологии. И совсем маленькое количество белков предсказанных не по гомологии белки, скорее всего,
это можно объяснить тем, что доказательства, основанные не на гомологии, недостаточно сильны, чтобы помещать белок в SwissProt.
- Определение качества функциональной аннотации в UniProt
Определим, сколько из реальных белков пшеницы (Triticum), у которых встречается хотя бы один раз хотя бы один из
кодов экспериментального доказательства функции, аннотированы по всем трем словарям GO.
Кодов экспериментального доказательства функции существует всего 6:
1. Inferred from Experiment (EXP) (получено из эксперимента);
2. Inferred from Direct Assay (IDA) (получено из прямого анализа);
3. Inferred from Physical Interaction (IPI) (получено из физического взаимодействия);
4. Inferred from Mutant Phenotype (IMP) (получено из мутантного фенотипа);
5. Inferred from Genetic Interaction (IGI) (получено из генетического взаимодействия);
6. Inferred from Expression Pattern (IEP) (получено из модели экспрессии).
После чего составил следующий запрос для SRS:
Organism name |
Triticum |
ProteinExistence |
1: evidence at protein level |
DBxref_ |
(P:&F:&C:)&(EXP:|IDA:|IPI:|IMP:|IGI:|IEP:) |
Но SRS не смог справиться с таким запросом. После чего я убрал ограничение по трем словорям ((P:&F:&C:)) в результате чего было найдено четыре белка,
но ни у одного из них не было аннотации во всех трех словарях GO. Это связано с тем, что в UniProt очень мало экспериментально полученных белков (имеющих один из кодов
экспериментального доказательства функции GO) с полностью изученной функцией (аннотированных по всем трем словарям GO).
- Использование GO для работы с массовыми данными
- Получение выборки последовательностей белков с заданной функцией
Проведем поиск всех белков из пшеницы (Triticum), выполняющих функцию биосинтез пиримидинов.
Для этого вначале проведем поиск среди всех терминов GO на сайте консорциума Gene Ontology.
Искать будем термин "pyrimidine biosynthesis". Обнаружился несколько соответствующих терминов в GO,
самые подходящие имеют ID - GO:0019856 и
GO:0006221.
Эти термины относятся к словарю Biological Process (Р). Запрос SRS: ([uniprot-Taxonomy:Triticum*] & [uniprot-DBxref_:GO:0019856*]) и
([uniprot-Taxonomy:Triticum*] & [uniprot-DBxref_:GO:0006221*]) не выявил ни одной находки.
- Определение главной функции в большом списке белков
Был выдан файл P0A6V8.txt со списком белков, полученных в результате массового эксперимента, включающий изучаемый белок GLK_ECOLI.
В поле Group IDs был подгружен выданный файл.
В поле "Available GO gene-association databases & commonly used gene collections" была выбрана БД goa_uniprot.
Поле "Maximal p-value in GO output list" было установлено в значение 0.01.
Значения остальных полей не изменялись.
Был получен список терминов в порядке возрастания P-value.
Для определения скачка построил график десятичного логарифма P-value.
Имеется несколько скачков, но наиболее значимый начинается на GO:0000267 (4,69*10-17).
Рассмотрим значения терминов до скачка (им можно доверять). Результаты занесем в таблицу.
GO |
Онтология GO (название словаря) |
Термин |
GO:0006096 |
biological process |
glycolysis |
GO:0006007 |
biological process |
glucose catabolic process |
GO:0019320 |
biological process |
hexose catabolic process |
GO:0046365 |
biological process |
monosaccharide catabolic process |
GO:0044275 |
biological process |
cellular carbohydrate catabolic process |
GO:0046164 |
biological process |
alcohol catabolic process |
GO:0006006 |
biological process |
glucose metabolic process |
GO:0005975 |
biological process |
carbohydrate metabolic process |
GO:0005886 |
cellular component |
plasma membrane |
GO:0016052 |
biological process |
carbohydrate catabolic process |
GO:0019318 |
biological process |
hexose metabolic process |
GO:0044265 |
biological process |
cellular macromolecule catabolic process |
GO:0005996 |
biological process |
monosaccharide metabolic process |
GO:0006066 |
biological process |
alcohol metabolic process |
GO:0044262 |
biological process |
cellular carbohydrate metabolic process |
GO:0009057 |
biological process |
macromolecule catabolic process |
GO:0044248 |
biological process |
cellular catabolic process |
GO:0009056 |
biological process |
catabolic process |
GO:0005515 |
molecular function |
protein binding |
GO:0005624 |
cellular component |
membrane fraction |
GO:0000267 |
cellular component |
cell fraction |
В выборке доминируют белки с функциями метаболизма углеводов, в частности, глюкозы.
Доминирующая локализация белков: в мембране.
Специфичность: связывание с белками.
Сравним полученные функции с терминами, ассоциированными с заданным белком (GLK_ECOLI).
Единственный термин, относящийся к белку GLK_ECOLI: GO:0006096. Хотя все основные
доминирующие термины (расположенные на шкале P-value до скачка), приписаны или являются
родительскими для терминов, относящихся к белку GLK_ECOLI.
|