Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~igogo/Term2/benchmark_aln.html
Дата изменения: Wed May 24 11:19:24 2006
Дата индексирования: Tue Oct 2 12:42:14 2012
Кодировка: Windows-1251
benchmark_aln

Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART.


На главную страницу второго семестра
  1. Построение эталонного выравнивания.

    В БД SMART получено изображение доменной структуры белка ASPG2_ECOLI. Для этого сначала по ID (ASPG2_ECOLI) получено схематичное изображение доменной структуры указанного белка. Домен единственный; это домен Asparaginase (принадлежит банку Pfam).
    Длина домена составляет 310 а.о. (и хотя в задании просят выбрать домен длиной не менее 50 и не более 200 остатков, такой вариант единственный :-))

    Далее: получение эталонного выравнивание доменов, гомологичных домену Asparaginase белка ASPG2_ECOLI (следуя подсказкам к заданию). Результат сохранен в файле asparaginase.msf.

    Выбор фрагмента эталонного выравнивания для дальнейшего детального исследования основан на предъявляемых требованиях (п.2 занятия 10). Данный фрагмент составляют следующие последовательности: ASPG_MYCLE; ASPG2_YEAST; ASPG1_BACSU; ASPG4_SCHPO; GATD_METKA.

    Вот что получилось (файл benchmark.msf):

                                                                                                                                                                                   
                                                *                 2 0                   *                 4 0                   *                 6 0                   *          
    A S P G _ M Y C L E   :   G V V V T H G T D T M E E T A L W L D L T Y A G - N V P V V L T G A M R S A D A P N A D G P T N L R E A L A V A A S P A A R G V G V L V S F   :   6 9
    A S P G 2 _ Y E A S   :   G A V V T H G T D T M E E T A F F L D L T I N S - E K P V C I A G A M R P A T A T S A D G P M N L Y Q A V S I A A S E K S L G R G T M I T L   :   6 9
    A S P G 1 _ B A C S   :   G F V I T H G T D T M A Y T S A A L S Y M L Q H A K K P I V I T G S Q I P I T F Q K T D A K K N I T D A I R F A C E G - - - V G G V Y V V F   :   6 7
    A S P G 4 _ S C H P   :   G I V I T H G T D S L E E T A M F L D L T I S T - A K P I V V V G A M R P S T A I G A D G P M N L L N A V A V A S S N Q S M G R G T L V L L   :   6 9
    G A T D _ M E T K A   :   G V V I G H G T D T M A F T A A A L S F V I E G L N G P V V L V G A Q R S S D R P S S D A A S N L I A A C A F A G D G E - - V G E V T V C M   :   6 8
                              G   V 6 t H G T D 3 6     T a     L                   P 6 v 6   G a   r               D       N 6     A       A                 g     6              

     

  2. Построение множественного выравнивания последовательностей программой ClustalW.

    Сначала по идентификаторам UniProt из benchmark.msf были получены с помощью SRS полные последовательности рассматриваемых структур (сохранены в файле full_seq.fasta).

    Следующий шаг: построение программой ClustalW множественного выравнивания последовательностей из full_seq.fasta при помощи программы emma пакета EMBOSS (одна из реализаций ClustalW).

    Полученное выравнивание импортировано в GeneDoc и сохранено в виде файла clustalw.msf.

  3. Сравнение полученных выравниваний.

    Устанавливаю соответствие между выравниваниями, сначала отмечаю цветом (цвет один, в данном случае, т.к. последовательности выравнялись очень даже неплохо) в каждой последовательности из clustalw.msf участок, попавший в benchmark.msf. Вот результат:

                                                                                                                                                                                                           
                                            *               1 8 0                   *               2 0 0                   *               2 2 0                   *               2 4 0                  
    A S P G _ M Y C L E   :   D R I R A A V H T A T R N - G A R G V V V T H G T D T M E E T A L W L D L T Y A G N V - P V V L T G A M R S A D A P N A D G P T N L R E A L A V A A S P A A R G V   :   1 3 7
    A S P G 2 _ Y E A S   :   I P L Y H G I S E A L A S D D Y A G A V V T H G T D T M E E T A F F L D L T I N S E K - P V C I A G A M R P A T A T S A D G P M N L Y Q A V S I A A S E K S L G R   :   1 7 7
    A S P G 1 _ B A C S   :   V E I A E A V K E N Y D - - A Y D G F V I T H G T D T M A Y T S A A L S Y M L Q H A K K P I V I T G S Q I P I T F Q K T D A K K N I T D A I R F A C E G - V G G V   :   1 4 0
    A S P G 4 _ S C H P   :   L K L A K L I L A E V A K P N V H G I V I T H G T D S L E E T A M F L D L T I S T A K - P I V V V G A M R P S T A I G A D G P M N L L N A V A V A S S N Q S M G R   :   1 8 1
    G A T D _ M E T K A   :   M K I A E E V V D A L S D P D V E G V V I G H G T D T M A F T A A A L S F V I E G L N G P V V L V G A Q R S S D R P S S D A A S N L I A A C A F A G D G E V G E V   :   2 4 1
                                  6       6                     G   V 6 t H G T D 3 6     T a     L                   P 6 v 6   G a   r               D       N 6     A       A             g              
                                                                                                                                                                                                           
                                          *               2 6 0                   *               2 8 0                   *               3 0 0                   *               3 2 0                    
    A S P G _ M Y C L E   :   G V L V S F A G - - - - - R V L Q P L G L R K A A T Q D L S G F A G E L L G T S S S G - - - - - - - - - - - - F A L T A A K T R P Y L G D L C A A D A P R V D I V   :   2 0 1
    A S P G 2 _ Y E A S   :   G T M I T L N - - - - - D R I A S G F W T T K M N A N S L D T F R A D E Q G Y L G Y F S N D D V E F Y Y P P V K P N G W Q F F D I S N L T D P S E I P E V I I L Y   :   2 5 3
    A S P G 1 _ B A C S   :   Y V V F D G R - - - - - - - V I Q G T R A I K L R T K S Y D A F E S I N Y P Y I A F I N E D G I E Y N - - - - - - K Q V T E P E N D T F T V D T S L C T D V C L L   :   2 0 8
    A S P G 4 _ S C H P   :   G T L V L L N - - - - - D R I G S A F Y T T K T N G N T L D T F K S Y E A G S L G I V L N Q K P F Y F F S P A V P T G K V F F D I Y N I K - - - Q L P R V D I L Y   :   2 5 4
    G A T D _ M E T K A   :   T V C M H G W T S D E V C L V H R G V R V R K M H T S R R D A F R S V E S I P I A K V D V K D L R N P K I E F L R S D Y R R P E D G E P E I S G G F E E K V A L V   :   3 2 2
                                                          6               K             d   F                                                                                               6              

     

    Ниже приведены соответствующие фрагменты выравниваний с окраской по 4м уровням (верхний фрагмент - эталонное, нижний - полученное с помощью программы ClustalW). Мерой сходства обговорено считать число совпадающих колонок, деленное на общее количество колонок в benchmark.msf. Сопоставим их (замечание: и в случае "эталонного", и в случае выравнивания, полученного с помощью программы ClustalW, при обработке в GeneDoc "раскраска" велась при включенном чек-боксе Similarity Groups Enabled; по 4м уровням):

                                                                                                                                                                                   
                                                *                 2 0                   *                 4 0                   *                 6 0                   *          
    A S P G _ M Y C L E   :   G V V V T H G T D T M E E T A L W L D L T Y A G - N V P V V L T G A M R S A D A P N A D G P T N L R E A L A V A A S P A A R G V G V L V S F   :   6 9
    A S P G 2 _ Y E A S   :   G A V V T H G T D T M E E T A F F L D L T I N S - E K P V C I A G A M R P A T A T S A D G P M N L Y Q A V S I A A S E K S L G R G T M I T L   :   6 9
    A S P G 1 _ B A C S   :   G F V I T H G T D T M A Y T S A A L S Y M L Q H A K K P I V I T G S Q I P I T F Q K T D A K K N I T D A I R F A C E G - - - V G G V Y V V F   :   6 7
    A S P G 4 _ S C H P   :   G I V I T H G T D S L E E T A M F L D L T I S T - A K P I V V V G A M R P S T A I G A D G P M N L L N A V A V A S S N Q S M G R G T L V L L   :   6 9
    G A T D _ M E T K A   :   G V V I G H G T D T M A F T A A A L S F V I E G L N G P V V L V G A Q R S S D R P S S D A A S N L I A A C A F A G D G E - - V G E V T V C M   :   6 8
                              G   V 6 t H G T D 3 6     T a     L                   P 6 v 6   G a   r               D       N 6     A       A                 g     6              

                                                                                                                                                                                   
                                                *                 2 0                   *                 4 0                   *                 6 0                   *          
    A S P G _ M Y C L E   :   G V V V T H G T D T M E E T A L W L D L T Y A G N V - P V V L T G A M R S A D A P N A D G P T N L R E A L A V A A S P A A R G V G V L V S F   :   6 9
    A S P G 2 _ Y E A S   :   G A V V T H G T D T M E E T A F F L D L T I N S E K - P V C I A G A M R P A T A T S A D G P M N L Y Q A V S I A A S E K S L G R G T M I T L   :   6 9
    A S P G 1 _ B A C S   :   G F V I T H G T D T M A Y T S A A L S Y M L Q H A K K P I V I T G S Q I P I T F Q K T D A K K N I T D A I R F A C E G - V G G V Y V V F D G   :   6 9
    A S P G 4 _ S C H P   :   G I V I T H G T D S L E E T A M F L D L T I S T A K - P I V V V G A M R P S T A I G A D G P M N L L N A V A V A S S N Q S M G R G T L V L L   :   6 9
    G A T D _ M E T K A   :   G V V I G H G T D T M A F T A A A L S F V I E G L N G P V V L V G A Q R S S D R P S S D A A S N L I A A C A F A G D G E V G E V T V C M H G   :   7 0
                              G   V 6 t H G T D 3 6     T a     L                   P 6 v 6   G a   r               D       N 6     A       A             g                        

    Тогда:

     

  4. Получение матрицы попарного совпадения последовательностей.

    Добившись нужной конфигурации выдачи в GeneDoc, получаю 2 матрицы попарного совпадения последовательностей:


їNADEZDA TUKHTUBAEVA,2006