|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~igogo/Term4/Membr_protein.html
Дата изменения: Tue Apr 10 22:06:08 2007 Дата индексирования: Tue Oct 2 12:46:06 2012 Кодировка: Windows-1251 |
Идентификаторы заданного белка и белка-прототипа - взяты отсюда.
Нумерация в PDB начинается с 23-го нуклеотида.
Белок-прототип - аквапорин-4 (AQP-4, WCH4, Mercurial-insensitive water channel) из организма Rattus norvegicus (крыса) - мембранный белок, формирующий водный канал; осморецептор, регулирующий водный баланс.
Полученные последовательности необходимо сравнить. Для этого создается выравнивание; вид команды:
needle P47863.fasta 2D57.fasta -gapopen 10 -gapextend 0.5 stdout >> prototip.msfВот полученное выравнивание:
########################################
# Program: needle
# Rundate: Wed Apr 04 2007 10:26:35
# Commandline: needle
# [-asequence] 2D57.fasta
# [-bsequence] P47863.fasta
# -outfile prototip.msf
# Align_format: srspair
# Report_file: prototip.msf
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: 2D57-SEQ
# 2: AQP4_RAT
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 323
# Identity: 301/323 (93.2%)
# Similarity: 301/323 (93.2%)
# Gaps: 22/323 ( 6.8%)
# Score: 1551.0
#
#
#=======================================
2D57-SEQ 1 ----------------------MVAFKGVWTQAFWKAVTAEFLAMLIFVL 28
||||||||||||||||||||||||||||
AQP4_RAT 1 MSDGAAARRWGKCGPPCSRESIMVAFKGVWTQAFWKAVTAEFLAMLIFVL 50
2D57-SEQ 29 LSVGSTINWGGSENPLPVDMVLISLCFGLSIATMVQCFGHISGGHINPAV 78
||||||||||||||||||||||||||||||||||||||||||||||||||
AQP4_RAT 51 LSVGSTINWGGSENPLPVDMVLISLCFGLSIATMVQCFGHISGGHINPAV 100
2D57-SEQ 79 TVAMVCTRKISIAKSVFYITAQCLGAIIGAGILYLVTPPSVVGGLGVTTV 128
||||||||||||||||||||||||||||||||||||||||||||||||||
AQP4_RAT 101 TVAMVCTRKISIAKSVFYITAQCLGAIIGAGILYLVTPPSVVGGLGVTTV 150
2D57-SEQ 129 HGNLTAGHGLLVELIITFQLVFTIFASCDSKRTDVTGSVALAIGFSVAIG 178
||||||||||||||||||||||||||||||||||||||||||||||||||
AQP4_RAT 151 HGNLTAGHGLLVELIITFQLVFTIFASCDSKRTDVTGSVALAIGFSVAIG 200
2D57-SEQ 179 HLFAINYTGASMNPARSFGPAVIMGNWENHWIYWVGPIIGAVLAGALYEY 228
||||||||||||||||||||||||||||||||||||||||||||||||||
AQP4_RAT 201 HLFAINYTGASMNPARSFGPAVIMGNWENHWIYWVGPIIGAVLAGALYEY 250
2D57-SEQ 229 VFCPDVELKRRLKEAFSKAAQQTKGSYMEVEDNRSQVETEDLILKPGVVH 278
||||||||||||||||||||||||||||||||||||||||||||||||||
AQP4_RAT 251 VFCPDVELKRRLKEAFSKAAQQTKGSYMEVEDNRSQVETEDLILKPGVVH 300
2D57-SEQ 279 VIDIDRGDEKKGKDSSGEVLSSV 301
|||||||||||||||||||||||
AQP4_RAT 301 VIDIDRGDEKKGKDSSGEVLSSV 323
|
Последовательность белка для исследования - Q8UVB8 ищется по идентификатору UniProt в SRS; запрос [uniprot-AccNumber:Q8UVB8] . Это аквапорин из организма Coturnix coturnix (перепел обыкновенный).
Далее строится парное выравнивание этой последовательности и последовательности белка-прототипа из PDB (идентификатор 2D57) c помощью программы ClustalW [предварительно создается файл, содержащий обе последовательности]; вид команды:
emma vmeste.fasta
Полученное выравнивание экспортировано в GeneDoc:

Итак, судя по выравниванию, сходство последовательностей высокое; функции рассматриваемые белки выполняют одинаковые. А это значит, что рассматриваемые белки - ортологи.
Выравнивание, экспортированное в GeneDoc, сохранено в файле под названием marking.msf (внимание!: здесь и далее ссылка приводится на файл в формате HTML, это обеспечивает "сохранность" раскраски и удобство просмотра результатов).
Учитывая, что мембрана имеет конечную толщину (в среднем около 30 Å ), трансмембранной спирали соответствует примерно 20 остатков. Из полученных 8ми, 4 спирали имеют длину приблизительно равную 20; одна спираль имеет длину в 25 а.о.; остальные 3 - "короткие" (10, 10 и 15 а.о.).
В выдаче ОРМ есть визуализация белка: похоже, что "короткие" спирали пронизывают только по одному из липидных слоев мембраны.
В полученном ранее файле marking.msf ниже последовательности прототипа добавлена последовательность с названием "OPM" и разметкой ТМ сегментов (как это делалось - см. подсказки: в соответствующих последовательностях отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные - знаком "-" (серым выделены остатки, отсутствующие в Q8UVB8)).
Число предсказанных трансмембранных спиралей (ТМС) составляет 6. Указаны границы ТМС, внешних и внутренних (по отношению к мембране) участков белка; кроме того, приводится диаграмма, отражающая апостериорную вероятность "встречаемости" указанных элементов.
Страничка с результатом предсказания прикреплена к протоколу.
К последовательностям в файле marking.msf добавлена еще одна искусственную последовательность с разметкой ТМ сегментов, отражающая результаты данного предсказания - последовательность "TMHMM" (опять же, отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные - знаком "-").
Полученное предсказание TMHMM сравнивается с данными ОРМ. Для этого рассматривается выравнивание, результаты сравнения заносятся в таблицу - см. ниже. Для оценки качества предсказания (подсчета ТР и пр.) написан программный код на языке JAVA (см. этот текстовый файл - реализация в JBuilder).
| Число а.к. остатков | |
| Всего а.к. остатков | 335 |
| Остатки, предсказанные как локализованные в мембране (всего) | 138 |
| Правильно предсказали (true positives, TP) | 119 |
| Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) | 19 |
| Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) | 170 |
| Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) | 27 |
| Доля | |
| Чувствительность (sensitivity) = TP / (TP+FN) | 0.8150 |
| Специфичность (specificity) = TN / (TN+FP) | 0.8995 |
| Точность (precision) = TP / (TP+FP) | 0.8623 |
| Сверхпредсказание = FP/ (FP+TP) | 0.1377 |
| Недопредсказание = FN / (TN+FN) | 0.1371 |
Что получается: после просмотра выравнивания оказалось, что предсказания TMHMM достаточно точные: предсказаны 6 трансмембранных спиралей, пронизывающих билипидный слой мембраны. Непредсказанными оказались только 2 "коротких" спирали (по 10 а.о. каждая) - тут очевидна связь с особенностями алгоритма ТМНММ (с тем, что скрытые марковские модели используются для предсказания; и "стандартной" трансмембранной спиралью считается спираль длиной около 20 а.о.). Правильно предсказано и положение цитоплазматических петель / ориентация в цитоплазматической мембране (за исключением петель между 3 и 5 предсказанными спиралями - сказалась непредсказанность коротких альфа-спиралей ).
Как оказалось, у TMHMM весьма высокие специфичность, чувствительность и точность ( >0.80 или >80% ). В то же время ,низка доля ( <0.15 ) сверх- и недопредсказаний. Все это делает программу TMHMM подходящей для достаточно разумного предсказания топологии мембранных белков (во всяком случае, для предсказания белков с топологией "петля - трансмембранная спираль - петля").
Напоследок привожу файл marking в различных форматах:
Согласно этому правилу петли, обращенные в сторону цитоплазмы, содержат больше остатков аргинина (R) и лизина (К).
Чтобы проверить это, в полученном ранее файле marking.msf на последовательностях ОРМ и ТMHMM розовым цветом выделяется позиции, соответствующие аргинину (R); зеленым - лизину (К) (см. этот файл).
Затем считается общее число таких остатков и число остатков, "попавших" в цитоплазматические петли (проще говоря, считаются окрашенные "+" на схемах). Результаты подсчета ["всего" - использую средства GeneDoc: пункт меню Reports / Base Composition Report] - см. таблицу:
| Cтруктурa белка-прототипа (по данным ОРМ) | Tопология, предсказанная ТMHMM | |
| Всего аргинина в последовательности (число а.о.) | 7 | 13 |
| Число аргинина во "внутренних" петлях (т.е. петлях, обращенных в сторону цитоплазмы) |
4 | 12 |
| Всего лизина в последовательности (число а.о.) | 13 | 18 |
| Число лизина во "внутренних" петлях (т.е. петлях, обращенных в сторону цитоплазмы) |
9 | 15 |
| Всего (аргинин, лизин) / во внутренних петлях | 0.65 | 0.87 |
Что получается: формально правило фон Хейне выполнено в обоих случаях (аргинин и лизин располагаются преимущественно в цитоплазматических петлях). Однако в случае топологии, предсказанной ТMHMM, выполнение правила более очевидно ( 87 % всех аргининов и лизинов находятся в цитоплазматических петлях), чем для белка-прототипа. Это, опять же, может быть связано с использованием в алгоритме ТMHMM скрытых марковских моделей, учитывающих правило Фон-Хейне.
Необходимо построить профиль гидрофобности* для аминокислотной последовательности изучаемого белка Q8UVB8. Данные для построения профиля получены с помощью программы pepwindow пакета EMBOSS (при предсказании трансмембранных сегментов оптимальным считают размер окна - 19 а.о. ; команда с параметром "-graph data"); вид команды:
pepwindow Q8UVB8.fasta -length 19 -graph data
* - Что такое профиль гидрофобности?
В работе Kyte, Doolittle, 1982, был предложен метод предсказания особенностей структуры белка, позволяющий найти в последовательности фрагменты, соответствующие трансмембранным спиралям или поверхности белка.
Суть метода в следующем. Каждому аминокислотному остатку приписывают некое число, показатель гидрофобности его боковой группы, см. шкалы
гидрофобности. Затем выбирают размер скользящего окна. По умолчанию, его размер обычно - 9 а.о. Программа просматривает всю а.к.последовательность и для каждого окна вычисляет среднее значение гидрофобности...
Полученные данные (выдача программы pepwindow - файл с расширением ".dat") экспортируются в Excel. По этим данным строится профиль гидрофобности с помощью Excel и строится график: по оси абцисс - позиция в последовательности, по оси ординат - средняя гидрофобность для окна с центром в данной позиции (см. файл). По этому графику определяются границы трансмембранных сегментов:

Рассматриваются пики со средним значением гидропатичности более 1.7. Каждый такой пик соответствует центру сегмента а.к. последовательности с длиной, равной размеру выбранного окна (если соседние сегменты перекрываются, то они могут быть описаны как один трансмембранный сегмент).
Для создания разметки, в файл marking.msf добавлена еще одна искусственная последовательность (с названием Profil и такой разметкой: отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные - знаком "-", аминокислоты лизин и аргинин - зеленым и розовым соответственно; желтым цветом отмечены аминокислотные остатки, соответствующие пикам).
Для предсказания ориентации белка в мембране использовано правило фон Хейне.
Что получилось: во первых, опять не предсказанными оказались "короткие" спирали (т.е. по 10 аминокислотных остатков) - это можно связать с выбранным размером окна в 19 а.о. Но, что печально, непредсказанной оказалась восьмая спираль с координатами 231-252 (последнее значение, превосходящее на профиле гидрофобности 1,7, составляет 210 - даже возможная спираль (200-200...) никак "не пересекается" с последней по предсказаниям ОРМ спиралью).
Как определялись границы остальных пяти определенных спиралей: как видно из графика, "однозначным" можно считать определение только четвертой спирали (тут единственный пик). В остальных случаях наблюдается частичное перекрывание соседних сегментов (соответственно, на графике - несколько очень близких пиков). При определении границ спиралей учитывалось, что их длина не должна значительно превышать 20 а.о.
В связи с такой "недоопределенностью" трансмембранных участков, предсказание ориентации (по фон Хейне) белка в мембране затруднено (из-за отсутствия целых 3х спиралей!) - в разметке GeneDoc это отмечено *. Таким образом, с предсказаниями ОРМ совпало только 3 петли (2 цитоплазматические и одна внешняя; с N-конца).
Качество предсказания оценивается по схеме п.4 "Обязательное задание" (см. программный код тут) и представляется в виде таблицы:
| Число а.к. остатков | |
| Всего а.к. остатков | 335 |
| Остатки, предсказанные как локализованные в мембране (всего) | 110 |
| Правильно предсказали (true positives, TP) | 98 |
| Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) | 12 |
| Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) | 176 |
| Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) | 49 |
| Доля | |
| Чувствительность (sensitivity) = TP / (TP+FN) | 0.6667 |
| Специфичность (specificity) = TN / (TN+FP) | 0.9362 |
| Точность (precision) = TP / (TP+FP) | 0.8909 |
| Сверхпредсказание = FP/ (FP+TP) | 0.1091 |
| Недопредсказание = FN / (TN+FN) | 0.2178 |
Как оказалось, для такого метода предсказания топологии мембранных белков, чувствительность ниже, чем у ТMHMM; а специфичность и точность - выше. Получается меньше сверхпредсказаний, но практически в два раза больше недопредсказаний (ну да, 2 "короткие" спирали и одна спираль в 22 а.о. оказались непредсказанными).
Это интересно, ведь ТMHMM служит специально для определения трансмембранных участков, а в исследуемом методе, определяются просто гидрофобные участки. Кроме того понятно, что точность предсказания будет зависеть и от размера окна (и не только точность - высокий процент недопредсказания в том числе).
И такой еще факт: при определении границ предсказанных спиралей возникла необходимость внимательно следить за выбором "центра" отсчета, перекрыванием сегментов и т.д. - предсказание топологии заданного мембранного белка на основе его профиля гидрофобности требует значительной сконцентрированности "человеческого фактора" :-)
Выравнивание в 3х вариантах: