Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~kut/term3/report3.html
Дата изменения: Thu Dec 21 15:21:46 2006
Дата индексирования: Tue Oct 2 07:05:07 2012
Кодировка: Windows-1251
Пакет BLAST (работа из командной строки).

Программы пакета BLAST для работы с нуклеотидными последовательностями.

Создание индексных файлов для работы с локальными версиями программ семейства BLAST.

С компьютера kodomo из директории /home/export/samba/public/tmp скопировал к себе в рабочую директорию 3 файла: vc_genome.fasta, который включает последовательности из EMBL, составляющие полный геном холерного вибриона (Vibrio cholerae), pa_genome.fasta - полный геном синегнойной палочки (Pseudomonas aeruginosa), pm_genome.fasta - полный геном бактерии Pasteurella multocida. C помощью программы formatdb создал индексные файлы, используя команды:
formatdb -i vc_genome.fasta -p F -n vc
formatdb -i pa_genome.fasta -p F -n pa
formatdb -i pm_genome.fasta -p F -n pm

Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный.


Для определения, не закодированы ли похожие на мой белки в неаннотированном геноме другого организма, предлогалось выбрать подходящую для решения данной задачи программу из пакета BLAST и провести с ее помощью поиск. Для данной задачи подходит программа TBLASTN. Использовались команды:
blastall -p tblastn -d vc -i nikr_ecoli.fasta -o vcresult.txt
blastall -p tblastn -d pa -i nikr_ecoli.fasta -o paresult.txt
blastall -p tblastn -d pm -i nikr_ecoli.fasta -o pmresult.txt


Результаты поиска в таблице:
Поиск гомологов NIKR_ECOLI Геном Vibrio cholerae. Геном Pseudomonas aeruginosa. Геном Pasteurella multocida.
Характеристика лучшей находки:      
     E-value находки 0,17 0,086 0,51
  координаты выравнивания(-ий)
в записи генома
3311-3397 11386-11554 7956-8009
AC соответствующей записи EMBL AE004284 AE004494 AE006150
  Координаты CDS в записи EMBL (если они есть) 3068-3520 Ссылка на полный геном, найти содержание этого поля не удалось complement(7066..8079)
  AC UniProt в записи EMBL (если есть) P33087 Ссылка на полный геном, найти содержание этого поля не удалось Q9CLV7
Число находок с Е-value<0,01
0 0 0


Файлы результатов:
vcresult.txt
paresult.txt
pmresult.txt

Значения для самых лучших находок составляют 0,17/0,086/0,51. Таким образом, можно сказать, что в предложенных мне для исследования организмах не закодированы похожие на мой белки.

Аналогичный поиск сразу в нескольких геномах.

Создал в своей директории индексные файлы BLAST для поиска по всем трем геномам сразу. С помощью программы TBLASTN провел поиск по трем геномам. Использовал команды:
genpath=/home/export/samba/public/tmp
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
formatdb -i "$genomes" -n 3g -p F
blastall -p tblastn -d 3g -i nikr_ecoli.fasta -o 3gresult.txt


При поиске по трем геномам сразу E-value лучшей находки (геном Pseudomonas aeruginosa) стал равен 0.16, то есть он увеличился. E-value находки из Vibrio cholerae тепрь на третьем месте, он равен 0.46. E-value находки из Pasteurella multocida теперь на шестом месте, он равен 2.3. Общее число находок с E-value < 0,01 как было так и осталось равным нулю. Повышение E-value объясняется тем, что при поиске по 3 геномам сразу банк поиска увеличился, значит, увеличилась вероятность найти искомую последовательность в случайном банке.
Файл результатов:
3gresult.txt

Поиск гомологов с помощью программы BLASTN.

Скопировал в свою рабочую директорию fasta-файл с гeном своего белка. Поискал гомологи этого гена в трех геномах программой BLASTN, при помощи команды:
blastall -p blastn -d 3g -i gene1.fasta -o generesult.txt
E-value лучшей находки (Pseudomonas aeruginosa) - 0.25. Таким образом, она не является тем, что я искал, иначе говоря, можно считать, что поставленая задача не была выполнена - гомологи не нашлись. Cоответствующее выравнивание:
>embl|AE004768|AE004768 Pseudomonas aeruginosa PAO1, section 329 of
            529 of the complete genome.
          Length = 12270

 Score = 34.2 bits (17), Expect = 0.25
 Identities = 20/21 (95%)
 Strand = Plus / Minus

                                 
Query: 37   ctggagacgctggacagcctg 57
            |||||| ||||||||||||||
Sbjct: 6167 ctggagccgctggacagcctg 6147
Файл результатов:
generesult.txt

В соответствующей записи EMBL нет информации о данном фрагменте.


На главную страницу третьего семестра

На главную страницу


©Белошистов Роман