Главная
Новости
Полезные ссылки
Контакты
Обо мне
Мои работы
|
Занятие 10 (зачетное)
Для анализа был дан неаннотированный фрагмент генома бактерии Yersinia mollaretii,
полученный из целого генома с помощью программы seqret с опцией -sask. Необходимо было определить,
закодированы ли данном фрагменте какие-либо белки,
похожие на известные белки родственной бактерии Escherichia coli K-12 (кишечной палочки).
Выполнение задания состояло из нескольких этапов.
Определение инструментов для решения поставленной задачи.
Полный протеом E. coli был получен из Swiss-Prot командой
seqret sw:*_ecoli, которая
записала в файл ecoli.fasta последовательности всех белков банка SwissProt, ID которых оканчивается
на "ecoli".
Индексные файлы этого протеома для поиска программами пакета BLAST были созданы командой
formatdb -i ecoli.fasta -p T -n ecoli
Получение трансляций всех открытых рамок считывания
Из данного фрагмента трансляции были извлечены все открытые рамки считывания длиной
не менее 240 нуклеотидов. Это было сделано программой getorf с соответствующими параметрами:
getorf -table 11 -minsize 240 -find 1 -sequence frag1.fasta
При этом был использован стандартный для бактерий генетический код, а открытой рамкой
считалась последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном.
В результате было получено 15 открытых рамок, которые записаны в
файле frag1.orf.
Поиск сходных последовательностей у E.coli
Для поиска последовательностей из протеома E.coli, сходных с найденными рамками считывания, была использована программа blastp (именно
она ищет гомологи белковой последовательности по банку другой белковой последовательности). Нам были необходимы находки с E-value < 0,001,
поэтому команда выглядела так:
blastall -p blastp -d ecoli -i frag1.orf -o found.txt -e 0.001 -m 8
В каждой строчке полученного файле в первом столбце находится название одной из рамок считывания, а в остальных -
характеристики найденной гомологичной ей последовательности из белков E.coli. Чтобы понять, сколько гомологов найдено для каждой рамки, был написан специальный скрипт, результаты работы которого лежат в файле res.txt, где цифры
показывают количество находок для каждой из 15 рамок считывания.
в результате был составлен документ credit.xls (лист "results"), содержащий информацию
обо всех открытых рамках считывания в данном мне фрагменте генома.
Для каждой рамки указано: начало во фрагменте,
конец во фрагменте, направление (прямое или обратное), число сходных
последовательностей, найденных у E. coli при условии E-value<0,001.
На том же листе также приведена таблица, содержащая эту информацию только для тех открытых рамок,
для которых нашлась хотя бы одна сходная последовательность. В этой таблице
присутствуют два дополнительных столбца, в которых приведены идентификатор самого
близкого из найденных белков E. coli и E-value находки.
Гипотетические гены во фрагменте 98001-105000 записи AALD01000001
Ниже изображено схематическое положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli. Одна рамка обозначается одной записью в квадратных скобках.
5'---[=>efeu, 6-743]------[=>macb, 2891-4186]-3'
5'-[=>lole, 4113-5333]--[=>ybba, 5340-6050]-3'
5'-[=>dsbe, 5980-6540]-----3'
Здесь для каждой рамки значок => обозначают прямую цепь ДНК, "xxxx" - название самого сходного гена у E. coli, а цифры - это координаты границ открытой рамки во фрагменте. Хорошо видно, что в двух случаях имеет место перекрывание генов.
Взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки
Ниже изображено схематическое положение пяти генов E. coli, самых близких к нашим пяти рамкам. Каждый ген обозначается одной записью в квадратных скобках. Обозначания те же, что и на предыдущей схеме, значок <= обозначают комплементарную цепь ДНК.
5'--[=>ybba, 518'957-519'643]--[=>macb, 919'570-921'516]--[=>efeu, 1'080'579-1'081'408]--3'
5'-[=>lole, 1'176'543-1'177'787]---------------------------------------------------------3'
3'--------------------------------------------------[<=dsbe, 2'290'429-2'290'986]--------5'
Как видно из схемы, гены кишечной палочки расположены достаточно далеко друг от друга. В относительной близости лежат только
два гена, кодирующие белки macb_ecoli и efeu_ecoli. Однако взаимное расположение этой пары неконсервативно: хотя в обеих бактериях эти
гены лежат на прямой цепи, у Y. mollaretii рамка, соответствующая гену macb, идет после рамки, соответствующей гену efeu, а у E. coli ген
macb идет до гена efeu.
|