Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~lu.andreeva/dopzadanie6.html
Дата изменения: Thu May 21 20:04:04 2009
Дата индексирования: Tue Oct 2 04:47:15 2012
Кодировка: Windows-1251
Доп. задание к занятию 8

Учебный сайт Люды Андреевой


Программы множественного выравнивания

Помимо Muscle, существуют другие программы множественного выравнивания, как например mafft и edialign пакета Emboss (mafft не принадлежит к этому пакету).
Чтобы воспользоваться этими программами, зайдем с помощью программы Putty на kodomo-count. В диалоговом окне выберем нужную директорию (в моем случае - H:\Term_2\Practices\Pr_8) и введем команду: mafft.
В диалоговом окне выводятся вопросы, касающиеся параметров выравнивания. Укажем файл с последовательностями - myproteins.fasta, созданный еще в ходе предыдущего задания. Укажем выходящий файл - mafft.fasta. Далее примем все параметры по умолчанию, а именно: number of tree-rebuilding (количество сдвигов выравнивания) - 2, максимальное количество итераций - 0, использовать fft, использовать мтрицу замен BLOSUM 62, штраф за открытие гэпа - 1.530, штраф за продолжение гэпа (offset) - 0.123.
При другом способе можно указать все эти параметры в одной строке:
mafft --retree 2 --maxiterate 0 --bl 62 --op 1.530000 --ep 0.123000 myproteins.fasta > mafft.fasta
Полученный файл импортируем в Genedoc, раскрасим и сохраним в виде рисунк:

Освоим аналогичным образом другую программу, строящую множественные выравнивания - edialign.
Программа спрашивает о следующих параметрах: последовательности для выравнивания (myproteins.fasta), выходящий файл для чтения - edialign_read.fasta и выходящий файл с выравниванием - edialign.fasta.
Текстовый файл сообщает о длине каждой последовательности, средней длине, весе каждого столбца, а также об алгоритме UPGMA (используется для построения филогенетических деревьев), определяющим вес замен.
Импортируем выравнивание в Genedoc и получим картинку:

Сравним полученные выравнивания между собой, а также с выравниванием, выполненным с помощью muscle.
Выравнивания программами mafft и edialign практически одинаковы: в них определены одни и те же консервативные и полуконсервативные позиции, а так же "частично консервативные" позиции (консервативные или полуконсервативные только для части белков из выборки) за единственным исключением - выделено синей рамкой. Основные различия связаны с расположением гэпов (выделены синей рамкой), которое, как говорилось выше, не влияет на обнаружение консервативных и полуконсервативных участков. Стоит отметить, что программа mafft ставит гэпы раньше (ближе к началу выравнивания), в первой подходящей позиции, а edialign - наоборот, ближе к концу выравнивания.
Сравним теперь полученные выравнивания с выравниванием Muscle:

Для определенности сравним выравнивания mafft и muscle. Участки выравниваний, не совпадающие у muscle и mafft обведены красной рамкой. Стоит отметить, что программы меняют порядок последовательностей белков, поэтому при одинаковом выравнивании встречаются участки с различной раскраской.
Первое, что бросается в глаза, - это обилие одиночных гэпов в mafft по сравнению с muscle. При этом далеко не всегда таким образом mafft удается найти консервативные или полуконсервативные позиции. Так, например, я плохо понимаю, зачем программе mafft ставить два одиночных гэпа в последовательности BIOH_SERMA в позициях 21 и 26, когда можно переместить участок между двумя гэпами так, чтобы образовалась колонка с полуконсервативными заменами (на 1 позицию влево).
Отдельного разговора заслуживают начало и конец выравнивания. Так, программа mafft постаралась выровнять последовательности так, чтобы начала и концы совпадали (т.е. подразумевая, что белки не укорачивались в процессе эволюции). Такая программа действий привела к большому количеству гэпов, в то время как muscle считает приоритетным сохранить непрерывность последовательности, т.е. основным "проявлением эволюции" является точечные замены, а не делеции.
В остальном же выравнивания muscle и edialign совпадают, в том числе и в участках с гэпами, которые в теме "Выравнивание набора гомологов белка BIOH_ECOLI" я назвала сомнительными.
Учитывая теперь различия между выравниваниями edialign и mafft, можно сделать вывод о вариативности постановки гэпов на данных участках без изменения биологического смысла выравнивания.
Из-зи особенностей расстановки гэпов можно назвать muscle более биологически оправданным выравниванием, а mafft и edialign - более математическими моделями. Однако изучение всего комплекса выравниваний позволяет судить о биологической значимости того или иного выровненного фрагмента, таким образом, все описанные выше выравнивания дополняют друг друга.

©Andreeva_2008