Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~dolgov/credit.html
Дата изменения: Sat Jun 30 01:13:18 2012
Дата индексирования: Mon Oct 1 23:34:22 2012
Кодировка: Windows-1251
<Credit - Part1>

типа логотип
Сайт СТУДЕНТА факультета "Биоинженерии & Биоинформатики"



Описание функции моего белка по данным UniProt: Создание и исследование паттерна для распознавания функционального подсемейства ДНК-гликозилаз. Создание и исследование НММ-профиля для распознавания функционального подсемейства ДНК-гликозилаз.

Описание функции моего белка по данным UniProt:

Двемолекулы моего белка связанные с ДНК

Что?

Белок Uracil-DNA glycosylase выполняет функцию вырезания остатков урацила из ДНК, которые могут появиться из-за ошибки включения dUMP-остатка * ДНК-полимеразы или вследствие дезаминирования** цитозина.
     *   - встраивание в реплицирующуюся молекулу ДНК некомплементарного
           матрице нуклеотида
     **  - реакция отщепления аминогруппы -NH2 от молекулы органического
           соединения

С чем?

На картинке расположенной слева вы можете видеть белок за работой. Как видим из картинки, на фрагменте молекулы ДНК сидят две молекулы белка. Именно две молекулы белка - они идентичны - мой белок встречается в виде мономера.

Где?

Как известно из школьного курса биологии E.Coli - это самая известная и самая изученная бактерия. Подчеркиваю - бактерия. А у бактерий ДНК располагается прямо в цитоплазме, т.е. место локализации белка - цитоплазма

Ссылки используемые при исследовании:
	EcoCyc - энциклопедия по Escherichia coli штамма К12
	PDBsum - сайт на котором предложена сумарная информация о третичной структуре известной на данное время 
		 (на мой взгляд он аналогичен информации на PDB банке)
	ENZYME - информация из базы данных ENZYME. К сожалению она не дала мне новой информации, т.к. среди 
		 предложенных ферментов семейства 3.2.2. нет моего белка.
                                                                   			  (см. результат поиска)

О домене

Расположение домена в белке
Расположен
с 50 по 210
аминокислоту
В последовательности моего белка обнаружен один домен: UNG-Uracil-DNA glycosylase ( EC:3.2.2) [ банк данных Pfam ].
Про него известно, что благодаря этому домену белок P12295 является ферментом "ремонта" ДНК , который вырезает остатки урацила из ДНК путем разрушения N-гликозидных связей.
Так же известно, что последовательность белка высоко конскрвативна.
[перевод аннотации Pfam - http://www.sanger.ac.uk//cgi-bin/Pfam/getacc?acc=PF03167&pdb=2eug]
На рисунке расположенном справа домен выделен зеленым цветом.

Белки, содержащих в своем составе домен UDG, встречаются в таксонах:
	Eukaryota (54)     	Bacteria (261)
	Viruses   (98)    	Archaea (22)
Я рассмотрел ветки на более низком уровне - данные подтверждаются. И если рассмотреть только первую ветку второго уровня - то на ней действительно всего 2 представителя - но есть же еще ветки второго уровня.

В Pfam представлено 2 записи белков из Escherichia coli, К-12. В результате проверки на повторяемость записей об одном и том же белке мною установлено. Что нет повторений. Это два белка:
Изображение домена в белке
UNG_ECOLI & MUG_ECOLI
228 Колличество остатков в белке 168
Расположение домена в белке UNG_Ecoli Изображение Расположение домена в белке MUG_Ecoli
150-210 Расположение домена в белке 5-161

Если взглянуть на домены то видно что:
Эволюционное событие % cлучаев (белков) Комментарий
Дупликация домена 0 Отличительной чертой данного семейства
являеться, то что они все имеют в
центральном полоожении домен UDG
И только его
Слияние доменов 0
Перестановка доменов 0

Задача исследования

Моя задача заключалась в том, чтобы найти в аминокислотных последовательностях особенности, отличающие подсемейства ДНК-гликозилаз, центральными белками в которых являются Урацил-ДНК-гликозилаза и mismatch-specific ДКН-гликозилаза и если возможно, охарактеризовать, в чем именно состоит функциональная роль найденных отличий.
Кроме того, предполагается создать правило, позволяющее распознавать по аминокислотной последовательности, принадлежит ли белок исследуемому функциональному подсемейству.

Материалы и методы

1. Отбор "центральных белков" для составления выборок

В качестве центральных белков были выбраны белки MUG_ECOLI и UNG_ECOLI.
Оба центральных белка являются ДНК-гликозилазами, а отличие в специфике соответствующего белка , так UNG_ECOLI специализируется на урациле, а MUG_ECOLI на вырезание урацила из ошибочно сшитых вместе некомплиментарных оснований гуанина и урацила, в двухцепочечной молекуле ДНК (из-за ошибки в репликации или мутации). Он способен гидролизовать связи азот-углерод образующиеся между остатком фосфорной кислоты, присоединенным к сахарному остатку, и некомплементарно связанному урацилу.

2. Составление обучающих выборок.

Обучающая выборка описана в низлежайшшей таблице. При ее создании мы, сперва, выбрали два центральных белка, которые являются паралогами. Далее для каждого из них были найдены ортолог в базе данных KEGG. В состав выборок преимущественно

включались белки
с id от 0.3 до 0.7,
выравнивающиеся по всей длине
не являющиеся белками из разных штаммов одного организма.(E.Coli).

Описание выборок

Название выборки Имя "центрального белка" Характерный признак Число ортологов в выборке Самый близкий ортолог Самый далекийортолог PDB Таксономия
Set1 UNG_Ecoli Урацил ДНК гликозилаза 168 Q7UBX1 0.996 Q8F2A8 0.233 1LQJ От бактерий до человека
Set2 MUG_Ecoli "mismatch-specific" ДНК гликозилаза 45 P43342 1.000 Q65R24 0.321 1LQG От бактерий до человека

3. Множественное выравнивание.

С помощью программы muscle (лежит на kodomo-count.cmm.msu.ru), было проведено множественное выравнивание двух выборок (файл со всеми последовательностями лежит в папке Credit - All.fasta; результат выравнивания вы можете найти здесь, а тут лежит файл в обработке GeneDoc). Кроме того, было получено выравнивание домена UMG для всех белков семейства из базы данных Pfam. На этом выравнивании были удалены все белки, не входящие в выборку. Так было создано выравнивание доменов белков выборки (Domain.msf - вы можете посмотреть результат в формате HTML На выравнивании домены выделены каждый в своее группе зеленым и цветом cyan)

Предсказание аминокислотных остатков, определяющих функциональные особенности подсемейств

Для предсказания восспользовались сервером: http://math.belozersky.msu.ru/~psn/index.htm Я послал запрос на зтот сервер иполучил следующие СДП-позиции:
 
31Ala 101Pro 35Asn 126Gln 140Asn 49Arg 136Trp 96Ile
27Gly 95Lys 74Thr 77Ala 157Arg 48Asp 130Ile 26Thr
38Trp 72Arg 100Gln 148Ser 70Val 44Ala 108Gly 81Ser
143Gly 47Thr 30Phe 69Leu 23Ser 29Pro 133Thr
Первые три позиции:
Group Most prevalent residueAlignment column
Group1A AAAAAAAAA
Group2V VVVVVVVVVVV
Group1G GGGNGGGGG
Group2L LLLLLLLLLLL
Group1W WWWWWWWWY
Group2P PPPPPPPPPPP
Probability plot view
Список СДП-позиций
Alignment positionAmino acid in P12295Mutual information(Ip)Z-score (Zp)
1 809 78Val 6.11e-01 8.42
2 885 145Asp 6.34e-017.99
3 816 85Pro 6.54e-01 7.88
4 805 74Leu 6.42e-01 7.82
5 935 189Pro 6.35e-01 7.81
6 879 139Gly 6.29e-01 6.71
7 856 116Gln 6.00e-01 6.35
8 826 92Tyr 6.33e-01 6.31
9 813 82Ile 6.37e-01 5.82
10 884 144Thr 6.20e-01 5.74
11 858 118Val 6.00e-01 5.62
12 808 77Ser 6.32e-01 5.42
13 912 166His 6.25e-01 5.27
14 861 121Leu 6.21e-01 5.13
15 853 113Trp 6.36e-01 4.99
16 948 195Gly 6.25e-01 4.99
17 801 70Gln 6.05e-01 4.45
18 854 114Ala 5.45e-01 4.44
19 932 186His 6.10e-01 4.44
20 828 94Glu 4.69e-01 4.29
21 957 203Val 5.89e-01 4.18
22 827 93Lys 6.00e-01 4.08
23 807 76Phe 6.15e-01 4.00
24 822 91Met 6.18e-01 3.92
25 928 182Leu 5.45e-01 3.87
26 916 170Lys 6.20e-01 3.82
27 865 125Leu 6.13e-01 3.80
28 892 152Asn 5.49e-01 3.80
29 925 179His 6.20e-01 3.74
30 804 73Gly 6.22e-01 3.66
31 880 140Trp 6.32e-01 3.62

На низлежащем рисунке изображен фрагмент выравнивания последовательности UNG_Ecoli на котором цветом Aqua (cyan) отмечены СДП-позиции (именно этот участок использовался для построения паттерна)
                                    *                     2 0            
P 1 2 2 9 5   : - 58-   V I L G Q D P Y H G P G Q A H G L A F S V   :     7 8
P 9 7 9 3 1   : -142-   V I L G Q D P Y H G P N Q A H G L C F S V   :   1 6 2
P 1 3 0 5 1   : -149-   V I L G Q D P Y H G P N Q A H G L C F S V   :   1 6 9
Q 7 V R Q 7   : - 58-   V I I G Q D P Y H G Y N Q A H G L A F S V   :   7 8
Q 8 3 C W 4   : - 62-   V I L G Q D P Y H G P N Q A H G L A F S V   :   8 2
Q 7 V M C 0   : - 56-   V I L G Q D P Y H G P N Q A H G L A F S V   :   7 6
Q 9 J U C 4   : - 56-   V I L G Q D P Y H G A G Q A H G L A F S V   :   7 6
Q 8 8 N 0 5   : - 65-   V I L G Q D P Y H G P G Q A H G L C F S V   :   8 5
Q 8 E B 7 8   : - 55-   V L I G Q D P Y H G P D Q A H G L C F S V   :   7 5
Q 8 P F Z 6   : - 66-   V I L G Q D P Y H G E G Q A H G L C F S V   :   8 6
Q 8 P 4 D 7   : - 66-   V V L G Q D P Y H G E G Q A H G L C F S V   :   8 6
                      V 6 6 G Q D P Y H G     Q A H G L   F S V          

Полную картину выравнивания вы можете найти здесь. Причем SDP позиции отмечены снизу зелеными квадратиками.

Создание и исследование паттерна для распознавания функционального подсемейства ДНК-гликозилаз.

Для построения паттерна выбран фрагмент c 58 по 78 выравнивания, приведенного выше на рис. 2. Этот фрагмент был выбран, потому что в нем часто располжены СДП позиции. Так-же потому что этот фрагмент участвует в образовании бетта-листа
Можно предложить следующий паттерн: V-I-L-G-Q-D-P-Y-H-G-x-x-Q-A-H-G-L-[AC]-F-S-V
По этому патерну был проведен поис по банкам данных Swiss-Prot и Trembl при условии, что неразрешено несовпадений с паттерном.При помощи программы fuzzpro(лежит на kodomo-count.cmm.msu.ru) Pезультат поиска при условии нет разрешенных несоответсвий приведен здесь:
result of fuzzpro(Number of mismatches [0] )
В обучающей выборке фунциональное подсемейство UNG_Ecoli ыло представлено 31 последовательностью. Проведенный поиск позволил обнаружить 7 из 10 последовательностей, а 3 (идентификаторы) не найдены, см. таблицу II.2. Последовательности других функциональных подсемейств обучающей выборки при таком поиске не находятся В то же время, поиск позволил обнаружить новые, не вошедшие в обучающую выборку, последовательности, которые соответствуют паттерну не хуже, чем последовательности из обучающей выборки. Эти последовательности были исследованы подробнее.

Создание и исследование НММ-профиля для распознавания функционального подсемейства ДНК-гликозилаз.