Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~zhuravlka/term4/b3z1.html
Дата изменения: Sat May 14 17:29:24 2011
Дата индексирования: Tue Oct 2 09:17:36 2012
Кодировка: Windows-1251
Страничка четвертого семестра Журавлевой Кати
На главную страницу
На страницу четвертого семестра

Создание паттерна по выравниванию семейства белков.

1)Поиск в банке Prosite паттерна рибосомального белка RL5_BACSU бактерий.

Паттерн:

[LIVM]-x(2)-[LIVM]-[STAVC]-[GE]-[QV]-x(2)-[LIVMA]-x-[STC]-x-[STAG]-[KRH]-x-[STA]

Описание семейства:

Рибосомальный белок L5- один из белков большой субъединицы рибосомы. Известно, что у Escherichia coli L5 включен в процесс связывания 5S РНК с большой субъединицей. Принадлежит к семейству рибосомальных белков, к которому на основе сходства последовательностей относятся:

    * L5 эубактерий.
    * L5 хлоропластов водорослей.
    * L5 Цианеллы.
    * Архебактериальный L5.
    * L11 млекопитающих.
    * Tetrahymena thermophila L21.
    * (Slime mold) L5 слизневой плесени (V18).
    * L16 дрожжей (39A).
    * митохондриальный L5 растений.
В качестве паттерна, являющегося признаком для данного семейства, был выбран консервативный участок, расположенный в первой трети последовательности этих белков.

Характеристики паттерна:

# номер версии UniProtKB/Swiss-Prot : 04, общее число записей последовательностей: 526969.
# Общее число находок в UniProtKB/Swiss-Prot: 708 находок в 708 различных последовательностях
# Число находок в белках, которые известно принадлежат к числу рассматриваемых: 703 находок в 703 различных последовательностях
# Число находок в белках, которые могут потенциально принадлежать к числу рассматриваемых: 0 в 0 различных последовательностях
# Число ложных находок (их неродственных белков): 5 находок в 5 различных последовательностях
# Число известных пропущенных последовательностей: 160
# Число частичных последовательностей, которые принадлежат к рассматриваемым, но которые не находятся паттерном из-за их фрагментарности: 4
# Точность (правдивые находки / (правдивые находки + ложные положительные)): 99.29 %
# Чувствительность ( правдивые находки / (правдивые находки + ложные отрицательные)): 81.46 %

2) Создание паттерна для поиска белков подсемейства.

Подсемейством я выбрала отдел Firmicutes.
Выборка из подсемейства:
RL5_BACSU
RL5_LISMO
RL5_LACAC
RL5_LACDA
RL5_PEDPA
RL5_STAES
RL5_THETN
 
Выборка из других бактерий:
RL5_ACHLI
RL5_BORA1
RL5_NEIG1
RL5_OCEIH
RL5_RHOSK
RL5_SACD2
RL5_XANOR
        
После нескольких попыток работы с различными участками выравнивания для составления паттерна за основу принят исходный для всей группы-
[LIVM]-x(2)-[LIVM]-[STAVC]-[GE]-[QV]-x(2)-[LIVMA]-x-[STC]-x-[STAG]-[KRH]-x-[STA]
делаем его строже и протяженней в длину, в итоге приходим к следующему:

[LIM]-x(2)-[IVL]-[TSA]-G-Q-[KRQH]-[AP]-[VLIM]-[TIVL]-T-[KRT]-A -[KR]-[KNR]-[SA]-[IV]-[AS]-[NGTAS]-F-[KR]-[ILV]-R-x-[GDN]-[MVTA] -x-[ILV]-G-[CAVSTL]- K-[VT]-[TD]-L-R-[GKR]-x(2)-M-[YFW]-[EDH]-F-X-[DEQYS]

По этому паттерну ProSite находит 167 последовательностей, среди них есть 12 лишних и все 155 нужных. Так как отклонение меньше 10%, а попытки улучшить паттерн оказались не очень-то успешными, было принято решение остановиться на данном результате.

Рамочкой выделена область паттерна.
Ссылка на исходное выравнивание двух выборок z2.msf
Ссылка на проверку в Excel правильности находок z1e1.xlsx

© Zhuravleva Katya, 2009