Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~ksenechka91/BLASTzachet.html
Дата изменения: Thu Nov 12 13:47:18 2009
Дата индексирования: Tue Oct 2 04:48:22 2012
Кодировка: Windows-1251
Зачетное задание по BLAST

Зачетное задание по BLAST

Определение неаннотированного фрагмента генома бактерии Regiella insecticola



Для исследования был задан фрагмент генома бактерии Regiella insecticola длиной в 7000 нуклеотидов (с 84001 по 91000 нуклеотиды).
Он был получен через Putty при помощи программы seqret с опцией -sask.
Требовалось определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.

  1. Определение инструментов для решения поставленной задачи

    Перед тем, как начинать поиск, необходимо было получить из Swiss-Prot полный протеом E.coli. Это было сделано при помощи команды

    seqret sw:*_Ecoli

    , которая записала в указанный в параметрах файл [3mg1_ecoli.fasta] последовательности всех белков, имеющих ID, заканчивающееся на Ecoli.

    Далее необходимо было создать индексные файлы для последующего поиска программами пакета BLAST. Для этого я использовала следующую команду:
    formatdb -i 3mg1_ecoli.fasta -n ecoli -p T

  2. Получение трансляций всех открытых рамок считывания

    При помощи программы getorf надо было получить файл, в котором содержатся все аминокислотные последовательности, полученные трансляцией

    всех открытых рамок считывания длиной не менее 240 нуклеотидов из интересующей нас нуклеотидной последовательности.



    При этом использование стандартного для бактерий (bacterial) генетического кода и определение открытой рамки как последовательности между старт- и стоп-кодонами

    обусловило параметры, подаваемые программе

    getorf: -minsize 240 -find 1 -table 11


    Выходной файл содержит 11 найденных программой открытых рамок считывания.


  3. Поиск сходных последовательностей у E.coli

    Для выполнения поставленной задачи была использована программа

    blastp

    пакета BLAST, т.к. она позволяет искать гомологов белковой последовательности по банку белковых последовательностей.

    Нас интересовали находки с E-value < 0,001, что определило значение входного параметра e программы blastp.


    В итоге были получены файлы ecoli_new.txt и names.txt с определением сходных последовательностей. Исходя из этих данных мы составили табличку:
    AC200764_1	[1116-1457]	Candidatus Regiella insecticola	             	         1
    AC200764_2	[1436-1723]	Candidatus Regiella insecticola	                         1
    AC200764_3	[1710-3335]	Candidatus Regiella insecticola	             	         1
    AC200764_4	[3365-4594]	Candidatus Regiella insecticola	             	         1
    AC200764_5	[5029-5322]	Candidatus Regiella insecticola	             	         0
    AC200764_6	[6100-6999]	Candidatus Regiella insecticola	                         3
    AC200764_7	[6794-6549]	(REVERSE SENSE) Candidatus Regiella insecticola          0
    AC200764_8	[5648-4923]	(REVERSE SENSE) Candidatus Regiella insecticola 	 3
    AC200764_9	[1949-1587]	(REVERSE SENSE) Candidatus Regiella insecticola	         0
    AC200764_10	[665-336] 	(REVERSE SENSE) Candidatus Regiella insecticola 	 0
    AC200764_11	[489-1] 	(REVERSE SENSE) Candidatus Regiella insecticola 	 1
    
    
  4. Послелняя колонка таблицы - число сходных последовательностей, найденных программой BLAST в протеоме E. coli K12 при условии E-value<0,001.

    Были отобраны только те открытые рамки считывания, для которых число находок было больше 0:

    Имя Начало во фрагменте Конец во фрагменте Направление Число находок BLASTP идентификатор самого близкого из найденных белков E. coli E-value
    AC200764_1 1116 1457 прямое 1 RNPA_ECOLI 1e-49
    AC200764_2 1436 1723 прямое 1 YIDD_ECOLI 5e-26
    AC200764_3 1710 3335 прямое 1 OXAA_ECOLI 0.0
    AC200764_4 3365 4594 прямое 1 LDCA_ECOLI 1e-09
    AC200764_6 6100 6999 прямое 3 SYI_ECOLI 9e-08
    AC200764_8 5648 4923 обратное 3 UBIG_ECOLI 2e-105
    AC200764_11 489 1 обратное 1 DNAA_ECOLI 1e-49


  5. Гипотетические гены во фрагменте 84001-91000 записи AC200764:

      Regiella insecticola
      3'[<=DNAA, 1 - 489]---------------------------------------------------------------------------[<=UBIG, 4923-5648]--------------------------------5'
    
      5'-------------------------[=>RNPA, 1116-1457]---[=>OXAA, 1710-3335]-[=>LDCA, 3365 - 4594]-------------------------[=>SYI, 6100-6999]------------3'
                  ----------------------[=>YIDD, 1436-1723]-----(перекрывание)
    
    

  6. Взаимное расположение генов-гомологов в геноме ecoli

Cначала с помощью команды entret embl:u00096 мы получили геном кишечной палочки.

Теперь найдем гены, соответствующие указанным выше идентификаторам, а также номера позиций, на которых они находятся:


  • RNPA_ECOLI - rnpA - [3882516..3882875]
  • YIDD_ECOLI - yidD - [3882839..3883096]
  • OXAA_ECOLI - oxaA - [3883099..3884745]
  • LDCA_ECOLI - ldcA - complement[1241389..1242303]
  • SYI_ECOLI - ileS - [22391..25207]
  • UBIG_ECOLI - ubiG - [2337589..2338311]
  • DNAA_ECOLI- dnaA - complement[3880349..3881752]
  • Составим графическое описание:

      E.coli
      3'-------------------------[<=ldcA, 1241389..1242303]---------------------------[<=dnaA, 3880349..3881752]--------------------------------------------------------------------------5'
    
      5'-[=>ileS, 22391..25207]-----------------------------[=>ubiG, 2337589..2338311]---------------------------[=>rnpA, 3882516..3882875]--------------[=>oxaA, 3883099..3884745]-------3'
                                                                    -----------------------------------------------[=>yidD, 3882839..3883096]-----(перекрывание)
    

    Как видно из представленных схем, RNPA и YIDD перекрываются в обоих геномах, но длина этого перекрывания разная.
    Оба гена находятся на прямой цепи, следом расположен ген OXAA, который в геноме Regiella insecticola перекрывается с YIDD. А вот в геноме E.coli они уже не перекрываются.
    Из этого можно сделать вывод о консервативности расположения этих генов. Более того, положение гена UBIG различно в данных геномах.