Определение неаннотированного фрагмента генома бактерии Regiella insecticola
Для исследования был задан фрагмент генома
бактерии Regiella insecticola
длиной в 7000 нуклеотидов (с 84001 по 91000 нуклеотиды).
Он был получен через Putty при помощи программы seqret с опцией
-sask.
Требовалось определить,
где в этом фрагменте закодированы белки,
похожие на известные белки бактерии Escherichia coli штамма K12.
-
Определение инструментов для решения поставленной задачи
Перед тем, как начинать поиск, необходимо было получить из Swiss-Prot полный
протеом E.coli. Это было сделано при помощи команды
seqret sw:*_Ecoli ,
которая записала в указанный в параметрах файл [3mg1_ecoli.fasta]
последовательности всех белков, имеющих ID, заканчивающееся на Ecoli.
Далее необходимо было создать индексные файлы для последующего поиска
программами пакета BLAST. Для этого я использовала следующую команду:
formatdb -i 3mg1_ecoli.fasta -n ecoli -p T
Получение трансляций всех открытых рамок считывания
При помощи программы getorf надо было получить
файл, в котором
содержатся все аминокислотные последовательности, полученные трансляцией
всех открытых рамок считывания длиной не менее 240 нуклеотидов из
интересующей нас
нуклеотидной последовательности.
При этом использование стандартного для бактерий (bacterial)
генетического кода и определение
открытой рамки как последовательности между старт-
и стоп-кодонами
обусловило параметры, подаваемые программе
getorf:
-minsize 240 -find 1 -table 11
Выходной файл содержит 11 найденных программой открытых рамок считывания.
Поиск сходных последовательностей у E.coli
Для выполнения поставленной задачи была использована программа blastp
пакета BLAST, т.к. она позволяет искать гомологов белковой
последовательности по банку белковых последовательностей.
Нас интересовали находки с E-value < 0,001, что определило значение
входного параметра e программы blastp.
В итоге были получены файлы ecoli_new.txt и
names.txt с определением сходных
последовательностей.
Исходя из этих данных мы составили табличку:
AC200764_1 [1116-1457] Candidatus Regiella insecticola 1
AC200764_2 [1436-1723] Candidatus Regiella insecticola 1
AC200764_3 [1710-3335] Candidatus Regiella insecticola 1
AC200764_4 [3365-4594] Candidatus Regiella insecticola 1
AC200764_5 [5029-5322] Candidatus Regiella insecticola 0
AC200764_6 [6100-6999] Candidatus Regiella insecticola 3
AC200764_7 [6794-6549] (REVERSE SENSE) Candidatus Regiella insecticola 0
AC200764_8 [5648-4923] (REVERSE SENSE) Candidatus Regiella insecticola 3
AC200764_9 [1949-1587] (REVERSE SENSE) Candidatus Regiella insecticola 0
AC200764_10 [665-336] (REVERSE SENSE) Candidatus Regiella insecticola 0
AC200764_11 [489-1] (REVERSE SENSE) Candidatus Regiella insecticola 1
Послелняя колонка таблицы - число сходных последовательностей,
найденных программой BLAST в протеоме E. coli K12 при условии E-value<0,001.
Были отобраны только те открытые рамки считывания, для которых число находок было больше 0:
Имя |
Начало во фрагменте |
Конец во фрагменте |
Направление |
Число находок BLASTP |
идентификатор самого близкого из найденных белков E. coli |
E-value |
AC200764_1 |
1116 |
1457 |
прямое |
1 |
RNPA_ECOLI |
1e-49 |
AC200764_2 |
1436 |
1723 |
прямое |
1 |
YIDD_ECOLI |
5e-26 |
AC200764_3 |
1710 |
3335 |
прямое |
1 |
OXAA_ECOLI |
0.0 |
AC200764_4 |
3365 |
4594 |
прямое |
1 |
LDCA_ECOLI |
1e-09 |
AC200764_6 |
6100 |
6999 |
прямое |
3 |
SYI_ECOLI |
9e-08 |
AC200764_8 |
5648 |
4923 |
обратное |
3 |
UBIG_ECOLI |
2e-105 |
AC200764_11 |
489 |
1 |
обратное |
1 |
DNAA_ECOLI |
1e-49 |
Гипотетические гены во фрагменте 84001-91000 записи AC200764:
Regiella insecticola
3'[<=DNAA, 1 - 489]---------------------------------------------------------------------------[<=UBIG, 4923-5648]--------------------------------5'
5'-------------------------[=>RNPA, 1116-1457]---[=>OXAA, 1710-3335]-[=>LDCA, 3365 - 4594]-------------------------[=>SYI, 6100-6999]------------3'
----------------------[=>YIDD, 1436-1723]-----(перекрывание)
Взаимное расположение генов-гомологов в геноме ecoli
Cначала с помощью команды entret embl:u00096 мы получили геном кишечной палочки.
Теперь найдем гены, соответствующие указанным выше идентификаторам, а также номера позиций, на которых они находятся:
RNPA_ECOLI - rnpA - [3882516..3882875]
YIDD_ECOLI - yidD - [3882839..3883096]
OXAA_ECOLI - oxaA - [3883099..3884745]
LDCA_ECOLI - ldcA - complement[1241389..1242303]
SYI_ECOLI - ileS - [22391..25207]
UBIG_ECOLI - ubiG - [2337589..2338311]
DNAA_ECOLI- dnaA - complement[3880349..3881752]
Составим графическое описание:
E.coli
3'-------------------------[<=ldcA, 1241389..1242303]---------------------------[<=dnaA, 3880349..3881752]--------------------------------------------------------------------------5'
5'-[=>ileS, 22391..25207]-----------------------------[=>ubiG, 2337589..2338311]---------------------------[=>rnpA, 3882516..3882875]--------------[=>oxaA, 3883099..3884745]-------3'
-----------------------------------------------[=>yidD, 3882839..3883096]-----(перекрывание)
Как видно из представленных схем, RNPA и YIDD перекрываются в обоих геномах,
но длина этого перекрывания разная.
Оба гена находятся на прямой цепи, следом расположен ген OXAA,
который в геноме Regiella insecticola перекрывается с YIDD. А вот в геноме E.coli они уже не перекрываются.
Из этого можно сделать вывод о консервативности расположения этих генов.
Более того, положение гена UBIG различно в данных геномах.
|