1. Из БД Swiss-Prot с помощью программы seqret был получен полный протеом E. coli.
Для поиска гомологов программами пакета BLAST были созданы индексные файлы:
formatdb -i 3mg1_ecoli.fasta -p T -n ec
2. Из полученного фрагмента генома Regiella insecticola были извлечены трансляции всех открытых рамок
считывания длиной не менее 240 нуклеотидов:
getorf -sequence my.fasta -table 11 -find 1 -minsize 240
где -table 11 - стандартный для бактерий (bacterial) генетический код, -find 1 - открытой рамкой считается последовательность,
начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.
Выходной файл: ac200764.orf.
Всего найдено было 10 рамок.
3. Для получения числа сходных последовательностей, найденных программой BLAST в протеоме E. coli K12 при условии E-value<0,001
сначала была введена команда:
blastall -p blastp -d ec -i ac200764.orf -m8 -o blastp.fasta
Выходной файл: blastp.fasta.
Затем, с помощью скрипта было получено количество
сходных последовательностей для каждой рамки считывания.
Результаты были выложены в книге Excel.
Для открытых рамок, для которых нашлась хотя бы одна сходная последовательность была составлена следующая таблица:
Идентификатор ORF |
Начало во фрагменте |
Конец во франменте |
Направление цепи |
Число находок |
Идентификатор белка - ближайшего гомолога |
E-value лучшей находки |
AC200764_7 |
6940 |
6047 |
обратная |
2 |
DNAA_ECOLI |
2e-163 |
AC200764_8 |
6053 |
4914 |
обратная |
1 |
DPO3B_ECOLI |
3e-151 |
AC200764_9 |
4727 |
2292 |
обратная |
3 |
GYRB_ECOLI |
0.0 |
AC200764_10 |
210 |
53 |
обратная |
2 |
SPOT_ECOLI |
0.0 |
Гипотетические гены во фрагменте 77001-84000 записи AC200764.
(Координаты идут относительно длины фрагмента (т.е. 1 - его начало)).
3'-[<=SPOT_ECOLI, 53-210]---------------[<=GYRB_ECOLI, 2292-4727]--------------------------[<=DNAA_ECOLI, 6047-6940]-5'
--[<=DPO3B_ECOLI, 4914-6053]---(перекрывание)
5'-------------------------------------------------------------------------------------------------------------------3'
Гены в геноме E.coli
(Координаты по записи EMBL u00096).
3'-------------------[<=GYRB_ECOLI, 3875728-3878142]-------------------[<=DPO3B_ECOLI, 3879244..3880344]-[<=DNAA_ECOLI, 3880349..3881752]-5'
5'-[=>SPOT_ECOLI, 3820423..382253]--------------------------------------------------------------------------------------------------------3'
Показать в другом окне
графическое описание взаимного расположения предполагаемых генов в заданном фрагменте и генов в геноме.
Если сравнивать взаимное расположение генов, то можно заметить, что гены находятся относительно одинаково как во фрагменте, так и в геноме.
Как видно, гены белков DPO3B_ECOLI и DNAA_ECOLI во фрагменте имеют маленький участок перекрывания (всего 7 п.о.), а в геноме кишечной
палочки стоят очень близко друг к другу. Столь близкое расположение генов может говорить о их консервативности; перекрывание можно
объяснить тем, что программа getorf берет ближайший инициатор транскрипции, и, следовательно, могла произойти ошибка.
Ген белка GYRB_ECOLI стоит достаточно отдаленно от остальных как и в первом случае, так и во втором.
Ген белка SPOT_ECOLI расположен очень далеко и имеет в геноме E.coli другое направление (прямое).
|