Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~kowka3/term2/Matrix.html
Дата изменения: Thu Mar 23 16:48:26 2006
Дата индексирования: Tue Oct 2 07:56:10 2012
Кодировка: Windows-1251
Матрицы замен.
На главную страницу второго семестра.

Занятие 4.Матрицы весов аминокислотных замен.


  1. Изучение матрицы BLOSUM62.

  2. В ходе анализа матрицы были изучены две группы аминокислот (см. книгу Practice_4.xls страница blosum62):

    Получены данные о средних частотах замен между аминокислотами внутри группы и между группами (при расчетах использовалась функция Exel "Среднее Значение"). Результаты приведены в табл?1:
    Средний вес замен между:
    а.о. желтой группы0,83
    а.о. синей группы2
    а.о. желтой и синей группы-2,75

    Наблюдаемая закономерность: аминокислоты внутри одной группы имеют положительное значение замены, а замены между разными группами имеют отрицательное значение замены. Ну, это логично: аминокислоты одной группы сходны по физико-химическим свойствам, а в некоторых даже и по размерам боковых групп (как то Asn и Gln - химические гомологи, то есть отличаются друг от друга на CH2-группу,как и Asp и Glu) отчего аминокислоты одной группы могут заменять друг друга в молекулах белков без особого сбоя в функции, особенно если замена произошла на поверхности белка. К тому же Asn и Gln могут спонтанно дезаминироваться, переходя соответсвенно в Asp и Glu, отчего очевидно эти замены во многом не смертельны. А аминокислоты разных групп резко различаются как по физико-химическим свойствам, так и по структуре боковой группы, отчего средний вес таких замен заведомо отрицателен и такие мутации не закрепляются, так как во многом нарушают функцию белка. В моем случае понятно, что гидрофобные аминокислоты синей группы (Phe, Tyr, His) могут быть ядрообразующими и очевидно участвуют в гидрофобных и вандерваальсовых взаимодействиях, и при замене их на гидрофильные аминокислоты желтой группы, особенно заряженные (Glu, Asp), может привести как к неправильному фолдингу с потерей активности белка, так и просто "взрыву" глобулы, если вдруг заряженная аминокислота окажется погруженной в гидрофобное ядро. Даже внимательно присмотревшись можно заметить, что большинство аминокислот одной группы имеют общую схему анаболизма из общих предшественников: например V, I, L - две молекулы пирувата (но Ile - пируват + Thr) и общая логика синтеза; F, Y, W - все аминокислоты происходят из хоризмата, но Phe, Tur - анаболизм по ветви профената, а Trp - по ветви антранилата.

  3. Вычисление весов замен аминокислот на основе одного "блока".

  4. На сайте базы данных BLOCKS проведен поиск блоков, относящихся к BIOD_ECOLI. Поиск по Acession number. Выбран был блок IPB002586A. С помощью программы pairs_count.exe получена таблица количеств различных пар аминокислот в данном блоке (сохранена в block_pairs.txt). На основе полученных количеств пар рассчитаны веса аминокислотных замен для трех пар аминокислот: E, G, K (результаты расчетов сохранены в книге Practice_4.xls страница Block). В таблице "Количество замен" выписаны результаты программы pairs_count.exe и в отдельной строке - общее количество пар (замен) аминокислот в данном блоке.
    В таблице "Частоты замен в блоке" представлены частоты данных аминокислотных замен (qxy) в этом блоке (расчет по формуле: "количество пар (замен) типа XY [Qxy]"/"общее количество пар (замен) всех типов [ΣQij]") [рассмотрен также случай X = Y].

    qxy = Qxy/ΣQij
    Если аминокислотные замены (пары аминокислот в последовательностях, стоящие в одинаковых позициях) случайные и независимые, то вероятность найти а/к X против Y есть: qxy = qx*qy (1), где qx - частота встречаемости а/к, qy - частота встречаемости а/к Y (данные о частотах встречаемости аминокислот рассчитаны по данным блока - результаты и используемые формулы приведены в книге blocks.xls, а результаты использования этих частот оформлены в книге Practice_4.xls на странице Block. Если встречаемость замены XY не случайно, то вероятность замены XY есть собственно величина qxy (2). Тогда отношение величины (2) на (1) и есть то, что мы называем весом а/к замены (формула представлена ниже).
    В таблице "Веса а/к замен" рассчитан вес аминокислотных замен E, G, K в данном блоке; расчет по формуле: "частота аминокислотной пары (замены) XY [qxy]"/("частота встречаемости а.о. Х [qx]"*"частота встречаемости а.о. Y [qy]").

    qxy/(qx*qy)
    В таблице "Собственно веса а/к замен." представлены результаты использования формулы: 2*log2("вес замены") и округления до целого.

    2*LOG2[qxy/(qx*qy)]


    Результаты сравнения:

    Табл. 2. Данные сравнения Blosum62 и таблицы "Собственно веса а/к замен" листа Block


    Тип замены

    EE

    EK

    EG

    GG

    GK

    KK

    Blosum62

    5

    1

    -2

    6

    -2

    5

    "Собственно веса а/к замен."

    5

    3

    2

    4

    -2

    5

    Заметно, что данные таблицы 2 по EE, GG, KK позициям дали прекрасные совпадения, а вот зато по остальным - несколько хуже. Но все же эти результаты приемлимы: выборка белков в моем блоке довольно большая и объемная. Хотя результаты таблицы 3 намного лучше данных таблицы 2: очевидно оттого, что частоты встречаемости аминокислот в протеоме ECOLI несколько отличны от частот, вычисленных по данным банка аминокислот из разных бактерий (эти частоты приведены на странице aafreq. .

  5. Вычисление весов замен аминокислот на основе большой выборки.

  6. Результаты сохранены в книге Practice_4.xls страница Blocks_200. Использовались те же формулы, что и при выполнении задания ?2. Сравнив с результатами предыдущего упражнения можно сказать, что есть существенные различия и вполне приемлимые соответствия. Между данными таблицы "Собственно веса а/к замен" и Blosum62 впринципе прекрасная корреляция: по всем заменам E, K, G; знак замены почти совпадает в обеих матрицах; практически для всех типов замен числа приблизительно одинаковы:

    Табл. 3. Данные сравнения Blosum62 и таблицы "Собственно веса а/к замен" листа Blocks_200


    Тип замены

    EE

    EK

    EG

    GG

    GK

    KK

    Blosum62

    5

    1

    -2

    6

    -2

    5

    "Собственно веса а/к замен."

    4

    1

    0

    4

    0

    3

    Корреляция очень хорошая, что является подтверждением того, что чем больше выборка белков, тем ближе результат к истине.



    ©Vova S.