Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Khrameeva/t3_html/annot.html
Дата изменения: Tue Nov 8 18:25:03 2005
Дата индексирования: Tue Oct 2 11:33:17 2012
Кодировка: Windows-1251
annot

Предсказание генов во фрагменте генома бактерии Yersinia bercovieri

Ha главную страницу III семестра

  1. ЗАДАНИЕ: Создайте в своей директории файл, содержащий участок с 1 по 4000 нуклеотид фрагмента AALC01000109 генома бактерии Yersinia bercovieri.

    Исследуемый участок генома был получен, отвечая на вопросы программы seqret, запущенной со следующими параметрами:

    seqret /home/export/samba/public/tmp/yb.fasta:AALC01000109 -sask

    Посмотреть полученный файл

  2. ЗАДАНИЕ: Извлеките из вашего фрагмента генома Y. bercovieri трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. Используйте стандартный для бактерий (bacterial) генетический код. Открытой рамкой считайте последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.

    Требуемый файл, включающий все указанные трансляции в fasta-формате, был получен с помощью программы getorf:

    getorf aalc01000109.fasta getorf.fasta -table 11 -minsize 240 -find 1

    Посмотреть полученный файл

  3. ЗАДАНИЕ: Создайте в своей директории индексные файлы BLAST для всех последовательностей из SwissProt из бактерий таксона Enterobacteriales

    Сначала был получен файл в fasta-формате с последовательностями всех белков Enterobacteriales:

    seqret sw-org:enterobacteriales

    Затем были созданы индексные файлы BLAST:

    formatdb -i bacter.fasta -p T -n bact

  4. ЗАДАНИЕ: Создайте книгу Excel, включающую информацию обо всех открытых рамках считывания в вашем фрагменте генома. Для каждой рамки должно быть указано: начало во фрагменте, конец во фрагменте, направление, число сходных последовательностей, найденных программой BLASTP среди последовательностей Enterobacteriales из SwissProt при условии E-value < 0,01.

    Рамка считыванияНачало во фрагментеКонец во фрагментеНаправлениеЧисло гомологов
    AALC01000109_1339590прямой0
    AALC01000109_214691720прямое0
    AALC01000109_316772078прямое0
    AALC01000109_421652602прямое0
    AALC01000109_529793227прямое0
    AALC01000109_630913399прямое0
    AALC01000109_732493767прямое0
    AALC01000109_839082871обратное4
    AALC01000109_928922038обратное26
    AALC01000109_1020381163обратное36
    AALC01000109_11119782обратное209

    Посмотреть эту таблицу в Excel

    Список рамок считывания, впоследствии импортированный в Excel, был получен при помощи программы grep:

    grep -i '>' getorf.fasta > getorf.txt

    Посмотреть скрипт, с помощью которого были получены данные о числе сходных последовательностей

    Изображение расположения предполагаемых генов

                 [1163<---------2038]        [2871<-----------3908]---
    ---[82<-----------1197]         [2038<--------2892]

  5. * ЗАДАНИЕ: Если в полученном наборе предполагаемых генов имеются аномалии (перекрывания генов), постарайтесь их объяснить. Предложите наиболее правдоподобную, по вашему мнению, структуру генов на данном участке генома.

Рассмотрим рамку считывания AALC01000109_11:

[82<-----------1197]
Для этой рамки нашлось 209 гомологов, причем у десяти лучших гомологов выравнивания начинаются с десятого остатка (относительно рамки считывания), который соответствует первому остатку гомолога. У остальных гомологов выравнивания начинаются с еще большего номера. Если мы посмотрим на последовательность белка, построенную по рамке считывания,
MFVSNRSKSMSIE...
то увидим, что как раз на десятом месте стоит МЕТ, а значит, считывание вполне могло начаться с этого места. Алгоритм программы getorf устроен таким образом, что программа ищет старт-кодон, и тот, который "попался" ей раньше по ходу считывания (ближайший к началу последовательности, а не к стоп-кодону), считает началом рамки.

Если учитывать это, рамка на самом деле может выглядеть следующим образом:

[82<-----------1170]

Заметим, что номер последнего остатка в выравниваниях совпадает с номером последнего остатка в белке, соответствующем рамке считывания, поэтому конец рамки останется неизменным. Это объясняется и работой программы getorf, потому что конец рамки считывания (стоп-кодон), в отчилие от ее начала, программа может определить лишь единственным образом.

Аналогично — для других рамок.

Рассмотрим рамку AALC01000109_10:

[1163<-----------2038]
Для этой рамки нашлось 36 гомологов, причем у лучшего гомолога выравнивание начинается со второго остатка (относительно рамки считывания), который соответствует первому остатку гомолога. У остальных гомологов выравнивания начинаются с еще большего номера. Если мы посмотрим на последовательность белка, построенную по рамке считывания,
MMADI...
то увидим, что как раз на втором месте стоит МЕТ, а значит, считывание вполне могло начаться с этого места.

Тогда рамка будет выглядеть следующим образом:

[1163<-----------2035]

Конец рамки и здесь останется неизменным.

Рассмотрим рамку AALC01000109_9:

[2038<-----------2892]
Для этой рамки нашлось 26 гомологов, причем у двух лучших гомологов выравнивания начинаются с девятого остатка (относительно рамки считывания), который соответствует первому остатку гомолога. У остальных гомологов выравнивания начинаются с еще большего номера. Если мы посмотрим на последовательность белка, построенную по рамке считывания,
MVSGRASVMLSA...
то увидим, что как раз на девятом месте стоит МЕТ, а значит, считывание вполне могло начаться с этого места.

Тогда рамка будет выглядеть следующим образом:

[2038<-----------2868]

Конец рамки останется неизменным.

Рассмотрим рамку AALC01000109_8:

[2871<-----------3908]
Для этой рамки нашлось всего 4 гомолога, причем у лучшего гомолога выравнивание начинается только с семнадцатого остатка (относительно рамки считывания), который соответствует девятому остатку гомолога. У остальных гомологов выравнивания начинаются с еще большего номера. Если посмотреть на последовательность белка, построенную по рамке считывания,
MRCRMKQTSVK...
то единственный МЕТ на промежутке с первого по восьмой стоит на пятом месте. Видимо, с него и началось считывание.

Тогда рамка будет выглядеть следующим образом:

[2871<-----------3872]

Конец рамки останется неизменным.

Исходя из всего вышеизложенного, наиболее правдоподобная структура генов на данном участке генома выглядит следующим образом:

          [1163<-------2035]-[2038<-------2868]-[2871<----------3972]-
-[82<----------1170]         

Однако, одно перекрывание все же осталось. Видимо, оно вызвано какими-то другими причинами.


© Храмеева Екатерина, 2005