Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.fbb.msu.ru/FBB/year_09/term2/help6.doc
Дата изменения: Fri Mar 19 15:04:07 2010
Дата индексирования: Tue Oct 2 04:14:26 2012
Кодировка: koi8-r

Методические указания

1. Рекомендуется выравнивать слова длины 5-8 символов (больше - можно, но
и работы больше ()

a. Создайте файл XXXXXXX_aln.xlsx (или .xls).

b. Запишите фамилию и ее мутированный вариант ( один символ - одна
клеточка)

c. Сделайте табличку: в первой строке - фамилия, в первом столбце
мутированный вариант. Заполните табличку весами за
совпадение/несовпадение букв; веса указаны в задании. Все
единички залейте цветом.

d. Сделайте копию этой таблички, удалите содержимое и заполните её,
как в лекции: в клетке должен стоять наибольший вес
выравнивания, заканчивающегося соответствующим сопоставлением и
путь из соседней клетке. См. пример в табл.1 на 2-й странице
этого файла

i. Заполняйте по строкам.

ii. В очередную клеточку можно попасть слева, сверху или по
диагонали. Добавка к предыдущему весу определяется как
указано в задании. Выбираете тот путь от соседей, который
дают наилучший вес; указываете откуда пришли и этот вес. В
случае одинакового результата от двух соседей выбираете
одного произвольно.

e. Залейте цветом тот путь, который дает лучший вес глобального
выравнивания

f. Само выравнивание запишите в двух строках под таблицей (один
символ - в одной клетке)

g. (*) Все это можно сделать командами Excel. Те, кто хорошо
владеет Excel (и хорошо понимают что делать) могут получить
результат средствами Excel. Такой результат премируется
дополнительными баллами (

2. Ответ - локальное выравнивание, и его вес - приведите на новой
странице того же файла Excel. Процесс построения можно не
документировать (хоть угадывайте ( ).

3. Обе программы входят в пакет EMBOSS, установленный на kodomo-count.
Это приятно тем, что форматы файлов стандартны и сопрягаемы.

a. Входные данные - две последовательности - должны лежать в двух
файлах в fasta формате. (В них не должно быть гэпов; если вы
взяли их из выравнивания, построенного в практикуме 5, то
используйте команду EMBOSS degapseq для удаления лишних
символов; degapseq -help - для получения справки)

b. Программы запускаются так:

i. needle seq1.fasta seq2.fasta XXXXXXX_needle.msf
-aformat msf

ii. water seq1.fasta seq2.fasta XXXXXXX_water.msf
-aformat msf

Имена входных и выходного файлов должны идти в указанном
порядке (в противном случае следует указывать, например,
так:

needle seq1.fasta seq2.fasta XXXXXXX_needle.msf
-aformat msf

см. подсказку needle -help или полное описании
программы tfm needle)

Если в параметрах не указать формат, то
выравнивание не будет открываться в GeneDoc.

Программа вас спросит про gap open и
gap extent - оставьте их, как есть (просто нажмите ENTER)

4. Программа выравнивания выровняет любые последовательности, даже
заведомо не гомологичные (т.е. остатки которых не имеют общего
предка). В этом убедитесь, выполняя задание: полученное выравнивание,
хоть и выглядит очень красиво, смысла не имеет, так как начало и конец
последовательности белка не происходят от общего предка.

a. Для того, чтобы вырезать фрагмент из последовательности,
используйте команду seqret пакета EMBOSS:

seqret <имя файла с последовательностью> <имя выходного
файла> -sbeg 100 -send 160

Будет вырезан фрагмент с 100-го по 160-й остаток.

Табл.1 Алгоритм динамического программирования. В клетке - вес части
выравнивания до этой клетки. Указано из какой клетки переход в эту: "|" -
сверху (делеция), "<" - слева (вставка), "\" - по диагонали (сопоставление
букв)

| | |a |l |E |
| |0 |<-1 |<-2 |<-3 |
|a ||-1 |\+1 |<0 |<-1 |
|l ||-2 |\-1 |\+2 |<1 |
|e ||-3 ||-2 ||+1 |\3 |
|k ||-4 ||-3 ||+0 ||+2 |