Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.fbb.msu.ru/FBB/year_09/term3/Pr_8_AAl.doc
Дата изменения: Thu Oct 21 14:04:00 2010
Дата индексирования: Tue Oct 2 08:29:44 2012
Кодировка: koi8-r


Практикум 8


Задания

Названия ВСЕХ файлов для проверки должны начинаться с вашей фамилии,
написанной латинскими буквами и должны лежать в директории
\Term3\Block2\Practice8\

(файлы скачиваются скриптом).

Ваши результаты, не содержащие глупостей (, могут быть выставлены на вашем
сайте. По блоку два это не является обязательным требованием.

Файл XXXXXXXX_pr8.doc (или .docx) и другие файлы для проверки будут скачаны
утром дня следующего практикума. Здесь XXXXXXX - ваша фамилия латинскими
буквами.

1) Вырежьте произвольный фрагмент длины 150 из "случайной"
последовательности embl и оттранслируйте в 6 рамках. Чему равна длина
трансляции самой длинной открытой рамки считывания? Ответ, саму
аминокислотную последовательность внесите в протокол.

(*) Для крутых: добавьте объяснение что все это значит: белок ли
закодирован? По теории (вероятностей ( ) какой длины, в среднем, должна
быть "случайная" открытая рамка считывания?
a) "Cлучайной" будем считать последовательность с идентификатором
ba0000nn, где nn - две цифры на ваш выбор. Если вдруг такой записи не
оказалось - измените nn! Координаты фрагмента выбирайте произвольно.
Результат сохраните в файле fragment.fasta (seqret с указанием банка,
идентификатора последовательности и координат фрагмента)
b) Для формальной трансляции используйте transeq. Посмотрите каким
параметром задается трансляция в 6-и рамках. Результат - в файле
XXXXXXX_fragment.translate. Символы "*" в трансляции соответствуют
стоп-кодонам.

2) Выберите из файла mads.sw и сохраните в последовательности всех 8 MADS-
белков риса[1] в файле XXXXXXX_mads_8.fasta, используя list - файл.
a) Коды белков mads1, ., mads8; код вида - orysj. Таким образом,
mads1_orysj - идентификатор белка MADS1 во входном файле и т.п.
b) Создайте list-файл mads_orysj.list
c) Создайте выборку нужных белков (seqret, используйте list-файл)

3) Создайте выравнивание в msf формате консервативных доменов POU белков[2]
из банка Swissprot. Результат - файл XXXXXXX_POU_domain.msf
a) Получите выборку последовательностей (seqret, поиск по описанию sw-
des)
b) Постройте выравнивание в msf формате (emma)
c) Посмотрите на выравнивание и определите границы доменов (GeneDoc)
d) Вырежьте нужную часть выравнивания и сохраните в требуемом формате с
указанным именем файла (seqret)
e) Проверьте, что все получилось правильно.

Как вы думаете, все ли известные последовательности POU белков
оказались в выборке? Если нет, то почему? И как найти все? Ответ
запишите в протокол.


4) Объедините все последовательности генома Salmonella typhimurium (файл
sty_genome.fasta в директории Practice7) в одну, переименуйте
объединенную последовательность (не файл!), дав ей имя
Salmonella_typhimurium. Результат - файл sty.fasta.
a) Команда union для объединения, выходной файл sty_temp.fasta;
используйте "*", чтобы указать все последовательности. Добавьте
параметр, позволяющий склеить последовательности, если они
пересекаются (union -hel или tfm union)
b) Команда descseq позволяет переименовать последовательность; можно и
изменить описание. Выходной файл sty.fasta
c) Если все получилось, удалите промежуточный файл.

5) Найдите число гомологов 10 белков из протеома Bacilus subtilis (файл
bsu_proteom.fasta) и информацию о каждой из находок в полных геномах 4-х
бактерий ( 3 файла лежат в директории Practice8, с ними проделано все то,
что вы выполнили в задании 4; добавьте 4-й файл sty.fasta, который вы
получили). Результат - файл XXXXXX_blast.xls или .xlsx, а также
комментарии в протоколе. Отчаянным разрешаем взять больше белков,
например, все белки протеома )))
a) Объедините все геномы в одном файле genomes.fasta в формате fasta
(seqret)
b) Создайте базу данных для blast
c) Получите список всех белков протеома B.subtilis в файле
bsu_proteom.xls; рекомендуется ограничиться информацией об
идентификаторе белка, длине и его описанием (infoseq, используйте
параметр -only )
d) Откройте результат в Excel и выберите минимум 10 белков для
дальнейшего. Рекомендуется выбирать хорошо аннотированные т.н. "house
keeping genes" в соответствии с вашими познаниями в молекулярной
биологии ("текст по столбцам"; "фильтр", "содержит слово" например,
слово polymerase, и отобранные последовательности отмечайте "yes" в
свободной колонке; потом другое слово и т.п.; отфильтруйте отобранные
последовательности) .
e) Создайте list файл bsu_10_proteins с именами отобранных
последовательностей (сцепите <имя файла:> с именами
последовательностей на новой странице Excel и скопируйте в новый
файл).
f) Создайте fasta файл bsu_10_proteins.fasta с отобранными
последовательностями (seqret, используйте list-файл)
g) Запустите blast с подходящими параметрами, в частности, с табличной
выдачей; выходной файл XXXXXXX_blast.xls (blastall, параметр -m 9 для
табличной выдачи, порог E-value установите 10-5; дополнительно для
тех, кто разобрался: параметр -F F позволяет отключить маскирование
малой сложности; регулировать способ пересчета частоты букв в
сравниваемых последовательностях можно параметром -C)
h) Откройте файл в Excel и сразу сохраните в Excel'евском формате - чтобы
потом не забыть (. Создайте сводную таблицу: строки - белки, поданные
на вход; столбцы - полные геномы, в ячейке - число находок. Таблицу
скопируйте в протокол и прокомментируйте.
i) (*) Выберите один входной белок, имеющий более одного гомолога в каком-
либо геноме и проанализируйте что, как и почему - всеми доступными
вам способами. Комментарии - в протокол.


5. Изучите какую-нибудь программу EMBOSS из вашей категории, опишите и
запустите. Описание команды и других новых команд внесите в список (в вашем
файле XXXXXXX_instructions.doc)


-----------------------
[1] MADS-бокс белки растений - это белки, регулирующие развитие цветка
(http://en.wikipedia.org/wiki/The_ABC_Model_of_Flower_Development)
Определяются по наличию консервативной последовательности, называемой MADS-
box.

[2] POU-белки - транскрипционные факторы многих эукариот, регулирующих
дифференциацию тканей (http://www.ncbi.nlm.nih.gov/pubmed/11183772).
Определяются по наличию консервативных POU-домена и соседнего с ним
гомеодомена.