|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~igogo/Term4/tree_1.html
Дата изменения: Wed Mar 21 10:12:25 2007 Дата индексирования: Tue Oct 2 07:28:56 2012 Кодировка: Windows-1251 |
Модель судьбы гена белка ASPG2_ECOLI описана в виде такой скобочной формулы:
((А:110,(В:35,С:35):75):10,(D:90,(Е:57,F:57):33):30);Расстояния даны как число мутаций на 100 нуклеотидных остатков. Вот полученное изображение:

A B C D E F . . . * * * * . . * * * * * * * . .Примечание: поскольку ветвь, отделяющая один (любой!) лист от всех остальных, есть в любом дереве, описание таких ветвей не несет полезной информации. Правильнее опускать его, т.е. верное описание топологии приведенного дерева состоит всего из трех строк, отвечающих трем внутренним ветвям.
Nm - number of gene's mutations - число мутаций в гене;
D - distance (from the scheme) - расстояния между последовательностями (т.е. число мутаций на 100 нуклеотидов), см. из схемы;
Lg - gene's length - длина гена (число нуклеотидов);
[ ] - округление числа до ближайшего целого.
| Lg | D | Nm | |
| Общий предок листьев А, В, С | 1047 | 10 | 105 |
| Общий предок листьев D, E, F | 1047 | 30 | 314 |
| Предок В, С | 1047 | 75 | 785 |
| Предок E, F | 1047 | 33 | 346 |
| Предок А | 1047 | 110 | 1152 |
| Предок В | 1047 | 35 | 366 |
| Предок С | 1047 | 35 | 366 |
| Предок D | 1047 | 90 | 942 |
| Предок E | 1047 | 57 | 597 |
| Предок F | 1047 | 57 | 597 |
msbar infile outfile -point 4 -count n -autoгде n - число мутаций.
Итак, последовательности, соответствующие листьям дерева, помещены в один файл "выравнивания" в fasta-формате.
Чтобы реконструировать дерево алгоритмом максимального правдоподобия, используется программа fdnaml:
fdnaml all_mut.fasta -ttratio 1 -autoВ файле с расширением ".fdnaml" содержится "текстово-графическое" изображение дерева, вот оно (неукорененное!):
+------B
+-------------------1
| +----------C
|
| +--------------F
| +------4
2--------------3 +-------------E
| |
| +---------------------D
|
+------------------------A
Чтобы реконструировать дерево алгоритмами UPGMA или Neighbor-joining, сначала надо посчитать попарные расстояния между последовательностями программой fdnadist:
fdnadist all_mut.fasta -ttratio 1 -autoрезультат - в файле с расширением .fdnadist. После этого этот файл подается на вход программе fneighbor:
fneighbor all_mut.fdnadist -auto- для реконструкции алгоритмом Neighbor-joining (получены 2 файла - один с расширением .treefile содержит скобочную формулу, другой - "текстово-графическое" изображение дерева); вот какое дерево получилось (неукорененное!):
+-----B
+--------------------1
! +-----------C
!
! +---------------------D
2------------------3
! ! +-------------E
! +------4
! +---------------F
!
+-----------------------A
Далее:
fneighbor all_mut.fdnadist -treetype u -auto- для реконструкции алгоритмом UPGMA (как и алгоритм Neighbor-joining работает с матрицей расстояний; получены файлы UP.treefile и UP.fneighbor); вот оно (укорененное!):
+--------------------------A
+------4
! ! +--------B
! +------------------1
--5 +--------C
!
! +---------------------D
+------------3
! +-------------E
+-------2
+-------------F
| A B C D E F | Правильное дерево | Алгоритм максимального правдоподобия | Алгоритм Neighbor-joining | Алгоритм UPGMA |
| . . . * * * | + | + | + | + |
| * . . * * * | + | + | + | + |
| * * * * . . | + | + | + | + |
Цель работы: проведение бутстреп-анализа выравнивания мутированных последовательностей, соответствующих листьям заданного дерева, и создание изображения дерева программой fdrawtree.
Этапы работы:
fseqboot all_mut.fasta -autoРезультат - см. в файле all_mut.fseqboot.
Полученные 100 выравниваний подаются на вход программе fdnaml. В выходном файле (all_mut_100.treefile) содержится 100 скобочных формул, соответствующих реконструкциям, сделанным по каждому из выравниваний.
Следующий этап - запуск программы fconsense. В выходной файл помещаются результаты бутстреп-анализа.
Полученное консенсусное дерево (неукорененное!; с указанием (для внутренних ветвей) количества деревьев, реконструированных по бутстреп-репликам):
+------F
+-87.0-|
+100.0-| +------E
| |
+-99.0-| +-------------D
| |
+------| +--------------------A
| |
| +---------------------------c
|
+----------------------------------B
Сравнение опять в форме таблицы:
| A B C D E F | Правильное дерево | Консенсусное бутстреп-дерево |
| . . . * * * | + | + |
| * . . * * * | + | + |
| * * * * . . | + | + |
Бутстреп-значения внутренних ветвей (! - в Bootstrap анализе) = количество деревьев, содержащих данную ветвь:
Species in order: 1. for B 2. for C 3. for D 4. for F 5. for E 6. for A |
Set (species in order) How many times out of 100.00 ..***. 100.00 ..**** 99.00 ...**. 87.00 |
Кроме того, в выходном файле содержится информация о ветвях, не включенных в состав консенсусного дерева (обладающих низкими бутстреп-значениями):
Set (species in order) How many times out of 100.00 ..*.*. 9.00 ..**.. 4.00 .*...* 1.00 |
Исходная скобочная формула помещена в отдельный файл, который затем подается на вход программе. Результат fdrawtree имеет формат postscript, но рекомендуется переименовать выходной файл, придав ему расширение .ps. Тогда вид команды:
fdrawtree fdrawtree.txt fdrawtree.psРезультат (неукорененное дерево; длины ветвей пропорциональны эволюционным расстояниям):
