Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~Khrameeva/t3_html/annot.html
Дата изменения: Tue Nov 8 18:25:03 2005 Дата индексирования: Tue Oct 2 11:33:17 2012 Кодировка: Windows-1251 |
Исследуемый участок генома был получен, отвечая на вопросы программы seqret, запущенной со следующими параметрами:
seqret /home/export/samba/public/tmp/yb.fasta:AALC01000109 -sask
Требуемый файл, включающий все указанные трансляции в fasta-формате, был получен с помощью программы getorf:
getorf aalc01000109.fasta getorf.fasta -table 11 -minsize 240 -find 1
Сначала был получен файл в fasta-формате с последовательностями всех белков Enterobacteriales:
seqret sw-org:enterobacteriales
Затем были созданы индексные файлы BLAST:
formatdb -i bacter.fasta -p T -n bact
Рамка считывания | Начало во фрагменте | Конец во фрагменте | Направление | Число гомологов |
AALC01000109_1 | 339 | 590 | прямой | 0 |
AALC01000109_2 | 1469 | 1720 | прямое | 0 |
AALC01000109_3 | 1677 | 2078 | прямое | 0 |
AALC01000109_4 | 2165 | 2602 | прямое | 0 |
AALC01000109_5 | 2979 | 3227 | прямое | 0 |
AALC01000109_6 | 3091 | 3399 | прямое | 0 |
AALC01000109_7 | 3249 | 3767 | прямое | 0 |
AALC01000109_8 | 3908 | 2871 | обратное | 4 |
AALC01000109_9 | 2892 | 2038 | обратное | 26 |
AALC01000109_10 | 2038 | 1163 | обратное | 36 |
AALC01000109_11 | 1197 | 82 | обратное | 209 |
Посмотреть эту таблицу в Excel
Список рамок считывания, впоследствии импортированный в Excel, был получен при помощи программы grep:
grep -i '>' getorf.fasta > getorf.txt
Посмотреть скрипт, с помощью которого были получены данные о числе сходных последовательностей
[1163<---------2038] [2871<-----------3908]--- ---[82<-----------1197] [2038<--------2892]
Рассмотрим рамку считывания AALC01000109_11:
[82<-----------1197]Для этой рамки нашлось 209 гомологов, причем у десяти лучших гомологов выравнивания начинаются с десятого остатка (относительно рамки считывания), который соответствует первому остатку гомолога. У остальных гомологов выравнивания начинаются с еще большего номера. Если мы посмотрим на последовательность белка, построенную по рамке считывания,
MFVSNRSKSMSIE...то увидим, что как раз на десятом месте стоит МЕТ, а значит, считывание вполне могло начаться с этого места. Алгоритм программы getorf устроен таким образом, что программа ищет старт-кодон, и тот, который "попался" ей раньше по ходу считывания (ближайший к началу последовательности, а не к стоп-кодону), считает началом рамки.
Если учитывать это, рамка на самом деле может выглядеть следующим образом:
[82<-----------1170]
Заметим, что номер последнего остатка в выравниваниях совпадает с номером последнего остатка в белке, соответствующем рамке считывания, поэтому конец рамки останется неизменным. Это объясняется и работой программы getorf, потому что конец рамки считывания (стоп-кодон), в отчилие от ее начала, программа может определить лишь единственным образом.
Аналогично для других рамок.
Рассмотрим рамку AALC01000109_10:
[1163<-----------2038]Для этой рамки нашлось 36 гомологов, причем у лучшего гомолога выравнивание начинается со второго остатка (относительно рамки считывания), который соответствует первому остатку гомолога. У остальных гомологов выравнивания начинаются с еще большего номера. Если мы посмотрим на последовательность белка, построенную по рамке считывания,
MMADI...то увидим, что как раз на втором месте стоит МЕТ, а значит, считывание вполне могло начаться с этого места.
Тогда рамка будет выглядеть следующим образом:
[1163<-----------2035]
Конец рамки и здесь останется неизменным.
Рассмотрим рамку AALC01000109_9:
[2038<-----------2892]Для этой рамки нашлось 26 гомологов, причем у двух лучших гомологов выравнивания начинаются с девятого остатка (относительно рамки считывания), который соответствует первому остатку гомолога. У остальных гомологов выравнивания начинаются с еще большего номера. Если мы посмотрим на последовательность белка, построенную по рамке считывания,
MVSGRASVMLSA...то увидим, что как раз на девятом месте стоит МЕТ, а значит, считывание вполне могло начаться с этого места.
Тогда рамка будет выглядеть следующим образом:
[2038<-----------2868]
Конец рамки останется неизменным.
Рассмотрим рамку AALC01000109_8:
[2871<-----------3908]Для этой рамки нашлось всего 4 гомолога, причем у лучшего гомолога выравнивание начинается только с семнадцатого остатка (относительно рамки считывания), который соответствует девятому остатку гомолога. У остальных гомологов выравнивания начинаются с еще большего номера. Если посмотреть на последовательность белка, построенную по рамке считывания,
MRCRMKQTSVK...то единственный МЕТ на промежутке с первого по восьмой стоит на пятом месте. Видимо, с него и началось считывание.
Тогда рамка будет выглядеть следующим образом:
[2871<-----------3872]
Конец рамки останется неизменным.
Исходя из всего вышеизложенного, наиболее правдоподобная структура генов на данном участке генома выглядит следующим образом:
[1163<-------2035]-[2038<-------2868]-[2871<----------3972]- -[82<----------1170]
Однако, одно перекрывание все же осталось. Видимо, оно вызвано какими-то другими причинами.
© Храмеева Екатерина, 2005