Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~igogo/Term4/Membr_protein.html
Дата изменения: Tue Apr 10 22:06:08 2007
Дата индексирования: Tue Oct 2 12:46:06 2012
Кодировка: Windows-1251
Membr_protein

Мембранные белки.


На главную страницу четвертого семестра

Задача - предсказать топологию мембранного белка и сравнить предсказание с ориентированной в мембране 3D-структурой белка-прототипа.

Идентификаторы заданного белка и белка-прототипа - взяты отсюда.

  1. Построение парного выравнивания исследуемого белка и заданного прототипа.

    Последовательности и нумерация остатков в БД PDB и БД UniProt могут различаться. Поэтому получаю и сравниваю обе последовательности белка-прототипа (это нужно для проверки предсказаний трансмембранных участков исследуемого белка):

    Полученные последовательности необходимо сравнить. Для этого создается выравнивание; вид команды:

    needle P47863.fasta 2D57.fasta -gapopen 10 -gapextend 0.5 stdout >> prototip.msf
    Вот полученное выравнивание:
    ########################################
    # Program: needle
    # Rundate: Wed Apr 04 2007 10:26:35
    # Commandline: needle
    #    [-asequence] 2D57.fasta
    #    [-bsequence] P47863.fasta
    #    -outfile prototip.msf
    # Align_format: srspair
    # Report_file: prototip.msf
    ########################################
    
    #=======================================
    #
    # Aligned_sequences: 2
    # 1: 2D57-SEQ
    # 2: AQP4_RAT
    # Matrix: EBLOSUM62
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 323
    # Identity:     301/323 (93.2%)
    # Similarity:   301/323 (93.2%)
    # Gaps:          22/323 ( 6.8%)
    # Score: 1551.0
    # 
    #
    #=======================================
    
    2D57-SEQ           1 ----------------------MVAFKGVWTQAFWKAVTAEFLAMLIFVL     28
                                               ||||||||||||||||||||||||||||
    AQP4_RAT           1 MSDGAAARRWGKCGPPCSRESIMVAFKGVWTQAFWKAVTAEFLAMLIFVL     50
    
    2D57-SEQ          29 LSVGSTINWGGSENPLPVDMVLISLCFGLSIATMVQCFGHISGGHINPAV     78
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    AQP4_RAT          51 LSVGSTINWGGSENPLPVDMVLISLCFGLSIATMVQCFGHISGGHINPAV    100
    
    2D57-SEQ          79 TVAMVCTRKISIAKSVFYITAQCLGAIIGAGILYLVTPPSVVGGLGVTTV    128
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    AQP4_RAT         101 TVAMVCTRKISIAKSVFYITAQCLGAIIGAGILYLVTPPSVVGGLGVTTV    150
    
    2D57-SEQ         129 HGNLTAGHGLLVELIITFQLVFTIFASCDSKRTDVTGSVALAIGFSVAIG    178
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    AQP4_RAT         151 HGNLTAGHGLLVELIITFQLVFTIFASCDSKRTDVTGSVALAIGFSVAIG    200
    
    2D57-SEQ         179 HLFAINYTGASMNPARSFGPAVIMGNWENHWIYWVGPIIGAVLAGALYEY    228
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    AQP4_RAT         201 HLFAINYTGASMNPARSFGPAVIMGNWENHWIYWVGPIIGAVLAGALYEY    250
    
    2D57-SEQ         229 VFCPDVELKRRLKEAFSKAAQQTKGSYMEVEDNRSQVETEDLILKPGVVH    278
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    AQP4_RAT         251 VFCPDVELKRRLKEAFSKAAQQTKGSYMEVEDNRSQVETEDLILKPGVVH    300
    
    2D57-SEQ         279 VIDIDRGDEKKGKDSSGEVLSSV    301
                         |||||||||||||||||||||||
    AQP4_RAT         301 VIDIDRGDEKKGKDSSGEVLSSV    323
    
    
    
    Итак, выравнивание построено; 2D57-SEQ - последовательность белка-прототипа из БД PDB; AQP4_RAT - последовательность белка-прототипа из БД UniProt (AQP4_RAT - это ID белка с АС P47863). Процент идентичности последовательностей составляет 93.2%; при этом 2 последовательности отличаются тем, что у 2D57-SEQ отсутствует участок в 22 аминокислотных остатка с N-конца - это связано с "потерей" участка (частичный протеолиз) при выделении и кристаллизации соответствующего белка. Такое "отсутствие" небольшой последовательности с N-конца (или, например, участка С-конца) - не редкость в PDB.
    Одно из возможных объяснений (? - разумное ли, но все же...): похоже, что в моем случае, отсутствующий в PDB участок представляет собой так называемую "сигнальную последовательность", богатую гидрофобными аминокислотными остатками. Она синтезируется первой и необходима для верного "заякоривания" рибосом на мембране ЭПР и начала встраивания белка в мембрану, после чего "сигнальная последовательность" ферментативно удаляется в полости ЭПР. Вот почему при выделении белка (уже "зрелого") из мембраны, сигнальная последовательность отсутствует - нет ее и в PDB.

    Последовательность белка для исследования - Q8UVB8 ищется по идентификатору UniProt в SRS; запрос [uniprot-AccNumber:Q8UVB8] . Это аквапорин из организма Coturnix coturnix (перепел обыкновенный).

    Далее строится парное выравнивание этой последовательности и последовательности белка-прототипа из PDB (идентификатор 2D57) c помощью программы ClustalW [предварительно создается файл, содержащий обе последовательности]; вид команды:

    emma vmeste.fasta

    Полученное выравнивание экспортировано в GeneDoc:


    Характеристики выравнивания:

    Итак, судя по выравниванию, сходство последовательностей высокое; функции рассматриваемые белки выполняют одинаковые. А это значит, что рассматриваемые белки - ортологи.

    Выравнивание, экспортированное в GeneDoc, сохранено в файле под названием marking.msf (внимание!: здесь и далее ссылка приводится на файл в формате HTML, это обеспечивает "сохранность" раскраски и удобство просмотра результатов).

  2. Разметка мембранных сегментов на выравнивании.

    По идентификатору PDB 2D57 белка-прототипа найдено описание ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database). Оказалось, что исследуемый белок - тетрамер. В каждой из субъединиц содержится 8 альфа-спиральных трансмембранных участков (ВАЖНО: в PDB нумерация начинается с 23 а.о.):

    Учитывая, что мембрана имеет конечную толщину (в среднем около 30 Å ), трансмембранной спирали соответствует примерно 20 остатков. Из полученных 8ми, 4 спирали имеют длину приблизительно равную 20; одна спираль имеет длину в 25 а.о.; остальные 3 - "короткие" (10, 10 и 15 а.о.).

    В выдаче ОРМ есть визуализация белка: похоже, что "короткие" спирали пронизывают только по одному из липидных слоев мембраны.

    В полученном ранее файле marking.msf ниже последовательности прототипа добавлена последовательность с названием "OPM" и разметкой ТМ сегментов (как это делалось - см. подсказки: в соответствующих последовательностях отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные - знаком "-" (серым выделены остатки, отсутствующие в Q8UVB8)).

  3. Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM).

    Топология заданного белка - белка Q8UVB8 - предсказывается с помощью сервера TMHMM - предсказание трансмембранных спиралей белка (на вход программе подается fasta-последовательность исследуемого белка (либо файл, содержащий такую последовательность)); опции выбраны по умолчанию; особенно "Output format: Extensive, with graphics" - графическое представление).

    Число предсказанных трансмембранных спиралей (ТМС) составляет 6. Указаны границы ТМС, внешних и внутренних (по отношению к мембране) участков белка; кроме того, приводится диаграмма, отражающая апостериорную вероятность "встречаемости" указанных элементов.
    Страничка с результатом предсказания прикреплена к протоколу.

    К последовательностям в файле marking.msf добавлена еще одна искусственную последовательность с разметкой ТМ сегментов, отражающая результаты данного предсказания - последовательность "TMHMM" (опять же, отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные - знаком "-").

  4. Оценка качества предсказания.

    Полученное предсказание TMHMM сравнивается с данными ОРМ. Для этого рассматривается выравнивание, результаты сравнения заносятся в таблицу - см. ниже. Для оценки качества предсказания (подсчета ТР и пр.) написан программный код на языке JAVA (см. этот текстовый файл - реализация в JBuilder).

    Число а.к. остатков
    Всего а.к. остатков 335
    Остатки, предсказанные как локализованные в мембране (всего) 138
    Правильно предсказали (true positives, TP) 119
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 19
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 170
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 27
    Доля
    Чувствительность (sensitivity) = TP / (TP+FN) 0.8150
    Специфичность (specificity) =  TN / (TN+FP)  0.8995
    Точность (precision) = TP / (TP+FP) 0.8623
    Сверхпредсказание = FP/ (FP+TP) 0.1377
    Недопредсказание = FN / (TN+FN) 0.1371

    Что получается: после просмотра выравнивания оказалось, что предсказания TMHMM достаточно точные: предсказаны 6 трансмембранных спиралей, пронизывающих билипидный слой мембраны. Непредсказанными оказались только 2 "коротких" спирали (по 10 а.о. каждая) - тут очевидна связь с особенностями алгоритма ТМНММ (с тем, что скрытые марковские модели используются для предсказания; и "стандартной" трансмембранной спиралью считается спираль длиной около 20 а.о.). Правильно предсказано и положение цитоплазматических петель / ориентация в цитоплазматической мембране (за исключением петель между 3 и 5 предсказанными спиралями - сказалась непредсказанность коротких альфа-спиралей ).

    Как оказалось, у TMHMM весьма высокие специфичность, чувствительность и точность ( >0.80 или >80% ). В то же время ,низка доля ( <0.15 ) сверх- и недопредсказаний. Все это делает программу TMHMM подходящей для достаточно разумного предсказания топологии мембранных белков (во всяком случае, для предсказания белков с топологией "петля - трансмембранная спираль - петля").

    Напоследок привожу файл marking в различных форматах:

Дополнительные задания.

  1. Проверка выполнения правила фон Хейне в структуре белка-прототипа (по данным ОРМ) и в топологии, предсказанной ТMHMM.

    Согласно этому правилу петли, обращенные в сторону цитоплазмы, содержат больше остатков аргинина (R) и лизина (К).

    Чтобы проверить это, в полученном ранее файле marking.msf на последовательностях ОРМ и ТMHMM розовым цветом выделяется позиции, соответствующие аргинину (R); зеленым - лизину (К) (см. этот файл).
    Затем считается общее число таких остатков и число остатков, "попавших" в цитоплазматические петли (проще говоря, считаются окрашенные "+" на схемах). Результаты подсчета ["всего" - использую средства GeneDoc: пункт меню Reports / Base Composition Report] - см. таблицу:

    Проверка выполнения правила фон Хейне.

      Cтруктурa белка-прототипа (по данным ОРМ) Tопология, предсказанная ТMHMM
    Всего аргинина в последовательности (число а.о.) 7 13
    Число аргинина во "внутренних" петлях
    (т.е. петлях, обращенных в сторону цитоплазмы)
    4 12
    Всего лизина в последовательности (число а.о.) 13 18
    Число лизина во "внутренних" петлях
    (т.е. петлях, обращенных в сторону цитоплазмы)
    9 15
    Всего (аргинин, лизин) / во внутренних петлях 0.65 0.87

    Что получается: формально правило фон Хейне выполнено в обоих случаях (аргинин и лизин располагаются преимущественно в цитоплазматических петлях). Однако в случае топологии, предсказанной ТMHMM, выполнение правила более очевидно ( 87 % всех аргининов и лизинов находятся в цитоплазматических петлях), чем для белка-прототипа. Это, опять же, может быть связано с использованием в алгоритме ТMHMM скрытых марковских моделей, учитывающих правило Фон-Хейне.

  2. Предсказание топологии заданного мембранного белка на основе его профиля гидрофобности.

    Необходимо построить профиль гидрофобности* для аминокислотной последовательности изучаемого белка Q8UVB8. Данные для построения профиля получены с помощью программы pepwindow пакета EMBOSS (при предсказании трансмембранных сегментов оптимальным считают размер окна - 19 а.о. ; команда с параметром "-graph data"); вид команды:

    pepwindow Q8UVB8.fasta -length 19 -graph data

    * - Что такое профиль гидрофобности?
    В работе Kyte, Doolittle, 1982, был предложен метод предсказания особенностей структуры белка, позволяющий найти в последовательности фрагменты, соответствующие трансмембранным спиралям или поверхности белка.
    Суть метода в следующем. Каждому аминокислотному остатку приписывают некое число, показатель гидрофобности его боковой группы, см. шкалы гидрофобности. Затем выбирают размер скользящего окна. По умолчанию, его размер обычно - 9 а.о. Программа просматривает всю а.к.последовательность и для каждого окна вычисляет среднее значение гидрофобности...

    Полученные данные (выдача программы pepwindow - файл с расширением ".dat") экспортируются в Excel. По этим данным строится профиль гидрофобности с помощью Excel и строится график: по оси абцисс - позиция в последовательности, по оси ординат - средняя гидрофобность для окна с центром в данной позиции (см. файл). По этому графику определяются границы трансмембранных сегментов:

    Рассматриваются пики со средним значением гидропатичности более 1.7. Каждый такой пик соответствует центру сегмента а.к. последовательности с длиной, равной размеру выбранного окна (если соседние сегменты перекрываются, то они могут быть описаны как один трансмембранный сегмент).

    Для создания разметки, в файл marking.msf добавлена еще одна искусственная последовательность (с названием Profil и такой разметкой: отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные - знаком "-", аминокислоты лизин и аргинин - зеленым и розовым соответственно; желтым цветом отмечены аминокислотные остатки, соответствующие пикам).

    Для предсказания ориентации белка в мембране использовано правило фон Хейне.

    Что получилось: во первых, опять не предсказанными оказались "короткие" спирали (т.е. по 10 аминокислотных остатков) - это можно связать с выбранным размером окна в 19 а.о. Но, что печально, непредсказанной оказалась восьмая спираль с координатами 231-252 (последнее значение, превосходящее на профиле гидрофобности 1,7, составляет 210 - даже возможная спираль (200-200...) никак "не пересекается" с последней по предсказаниям ОРМ спиралью).
    Как определялись границы остальных пяти определенных спиралей: как видно из графика, "однозначным" можно считать определение только четвертой спирали (тут единственный пик). В остальных случаях наблюдается частичное перекрывание соседних сегментов (соответственно, на графике - несколько очень близких пиков). При определении границ спиралей учитывалось, что их длина не должна значительно превышать 20 а.о.
    В связи с такой "недоопределенностью" трансмембранных участков, предсказание ориентации (по фон Хейне) белка в мембране затруднено (из-за отсутствия целых 3х спиралей!) - в разметке GeneDoc это отмечено *. Таким образом, с предсказаниями ОРМ совпало только 3 петли (2 цитоплазматические и одна внешняя; с N-конца).

    Качество предсказания оценивается по схеме п.4 "Обязательное задание" (см. программный код тут) и представляется в виде таблицы:

    Число а.к. остатков
    Всего а.к. остатков 335
    Остатки, предсказанные как локализованные в мембране (всего) 110
    Правильно предсказали (true positives, TP) 98
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 12
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 176
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 49
    Доля
    Чувствительность (sensitivity) = TP / (TP+FN) 0.6667
    Специфичность (specificity) =  TN / (TN+FP)  0.9362
    Точность (precision) = TP / (TP+FP) 0.8909
    Сверхпредсказание = FP/ (FP+TP) 0.1091
    Недопредсказание = FN / (TN+FN) 0.2178

    Как оказалось, для такого метода предсказания топологии мембранных белков, чувствительность ниже, чем у ТMHMM; а специфичность и точность - выше. Получается меньше сверхпредсказаний, но практически в два раза больше недопредсказаний (ну да, 2 "короткие" спирали и одна спираль в 22 а.о. оказались непредсказанными). Это интересно, ведь ТMHMM служит специально для определения трансмембранных участков, а в исследуемом методе, определяются просто гидрофобные участки. Кроме того понятно, что точность предсказания будет зависеть и от размера окна (и не только точность - высокий процент недопредсказания в том числе).
    И такой еще факт: при определении границ предсказанных спиралей возникла необходимость внимательно следить за выбором "центра" отсчета, перекрыванием сегментов и т.д. - предсказание топологии заданного мембранного белка на основе его профиля гидрофобности требует значительной сконцентрированности "человеческого фактора" :-)

    Выравнивание в 3х вариантах:


їNADEZDA TUKHTUBAEVA,2007