Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~bennigsen/term3/credit2.html
Дата изменения: Mon Nov 24 00:25:26 2008
Дата индексирования: Tue Oct 2 11:50:51 2012
Кодировка: Windows-1251
Yuri Pekov, Term 3, Credit 2

Учебный сайт студента ФББ МГУ Пекова Юрия

Главная
Новости
Полезные ссылки
Контакты
Обо мне
Мои работы

Занятие 10 (зачетное)

Для анализа был дан неаннотированный фрагмент генома бактерии Yersinia mollaretii, полученный из целого генома с помощью программы seqret с опцией -sask. Необходимо было определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии Escherichia coli K-12 (кишечной палочки).

Выполнение задания состояло из нескольких этапов.
  1. Определение инструментов для решения поставленной задачи.

    Полный протеом E. coli был получен из Swiss-Prot командой seqret sw:*_ecoli, которая записала в файл ecoli.fasta последовательности всех белков банка SwissProt, ID которых оканчивается на "ecoli".

    Индексные файлы этого протеома для поиска программами пакета BLAST были созданы командой
    formatdb -i ecoli.fasta -p T -n ecoli
  2. Получение трансляций всех открытых рамок считывания

    Из данного фрагмента трансляции были извлечены все открытые рамки считывания длиной не менее 240 нуклеотидов. Это было сделано программой getorf с соответствующими параметрами:
    getorf -table 11 -minsize 240 -find 1 -sequence frag1.fasta
    При этом был использован стандартный для бактерий генетический код, а открытой рамкой считалась последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном.

    В результате было получено 15 открытых рамок, которые записаны в файле frag1.orf.
  3. Поиск сходных последовательностей у E.coli

    Для поиска последовательностей из протеома E.coli, сходных с найденными рамками считывания, была использована программа blastp (именно она ищет гомологи белковой последовательности по банку другой белковой последовательности). Нам были необходимы находки с E-value < 0,001, поэтому команда выглядела так:
    blastall -p blastp -d ecoli -i frag1.orf -o found.txt -e 0.001 -m 8

    В каждой строчке полученного файле в первом столбце находится название одной из рамок считывания, а в остальных - характеристики найденной гомологичной ей последовательности из белков E.coli. Чтобы понять, сколько гомологов найдено для каждой рамки, был написан специальный скрипт, результаты работы которого лежат в файле res.txt, где цифры показывают количество находок для каждой из 15 рамок считывания.

    в результате был составлен документ credit.xls (лист "results"), содержащий информацию обо всех открытых рамках считывания в данном мне фрагменте генома. Для каждой рамки указано: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных у E. coli при условии E-value<0,001.

    На том же листе также приведена таблица, содержащая эту информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность. В этой таблице присутствуют два дополнительных столбца, в которых приведены идентификатор самого близкого из найденных белков E. coli и E-value находки.
  4. Гипотетические гены во фрагменте 98001-105000 записи AALD01000001

    Ниже изображено схематическое положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli. Одна рамка обозначается одной записью в квадратных скобках.
    
    5'---[=>efeu, 6-743]------[=>macb, 2891-4186]-3'
    				     5'-[=>lole, 4113-5333]--[=>ybba, 5340-6050]-3'
    						        		5'-[=>dsbe, 5980-6540]-----3'
    
    
    Здесь для каждой рамки значок => обозначают прямую цепь ДНК, "xxxx" - название самого сходного гена у E. coli, а цифры - это координаты границ открытой рамки во фрагменте. Хорошо видно, что в двух случаях имеет место перекрывание генов.
  5. Взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки

    Ниже изображено схематическое положение пяти генов E. coli, самых близких к нашим пяти рамкам. Каждый ген обозначается одной записью в квадратных скобках. Обозначания те же, что и на предыдущей схеме, значок <= обозначают комплементарную цепь ДНК.
    
    5'--[=>ybba, 518'957-519'643]--[=>macb, 919'570-921'516]--[=>efeu, 1'080'579-1'081'408]--3'
    5'-[=>lole, 1'176'543-1'177'787]---------------------------------------------------------3'
    			        		
    3'--------------------------------------------------[<=dsbe, 2'290'429-2'290'986]--------5'
    
    Как видно из схемы, гены кишечной палочки расположены достаточно далеко друг от друга. В относительной близости лежат только два гена, кодирующие белки macb_ecoli и efeu_ecoli. Однако взаимное расположение этой пары неконсервативно: хотя в обеих бактериях эти гены лежат на прямой цепи, у Y. mollaretii рамка, соответствующая гену macb, идет после рамки, соответствующей гену efeu, а у E. coli ген macb идет до гена efeu.


©Пеков Юрий, 2007-2008