Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Khrameeva/t3_html/homol.html
Дата изменения: Sat Nov 5 19:17:36 2005
Дата индексирования: Tue Oct 2 11:33:25 2012
Кодировка: Windows-1251
homol

Поиск гомологов белка DTD_ECOLI в геномах родственных бактерий

Ha главную страницу III семестра

Поиск гомологов программами пакета BLAST

Ближайший гомолог белка DTD_ECOLI в геноме Pseudomonas aeruginosa, найденный посредством программы TBLASTN

ЗАДАНИЕ: Посредством программы TBLASTN найдите ближайшего гомолога своего белка в соответствующем геноме. Занесите в отчет информацию о нем и отметьте, предлагает ли BLAST другие гомологи с E-value < 0,01.

ОрганизмPseudomonas aeruginosa
ACAE004921
E-value3e-37
Identity52%
Score (bits)148
Координаты выравнивания в записи265-696
CDS аннотирован в записи?Да
Его координаты259-696
AC соответствующего белка в UniProtQ9HUA4

Других гомологов с E-value<0,01 TBLASTN не предлагает.

Индексные файлы были построены с помощью программы formatdb:

formatdb -i /home/export/samba/public/tmp/pa_genome.fasta -p F -n pa

Поиск гомологов осуществлялся следующим образом (последовательность на входе — аминокислотная):

blastall -p tblastn -d pa -i dtd_ecoli.fasta -o tblastn.out -e 0.01

Гомологи белка DTD_ECOLI в геномах Pseudomonas aeruginosa, Vibrio cholerae и Pasteurella multocida, найденные посредством программы TBLASTN

ЗАДАНИЕ: Создайте в своей директории индексные файлы BLAST для поиска по всем трем геномам сразу. Запустите TBLASTN по трем геномам. Отметьте в отчете, как изменился E-value находки из предыдущего пункта, а также сколько всего имеется находок с E-value < 0,01.

Pseudomonas aeruginosaPasteurella multocidaVibrio cholerae
ACAE004921AE006198AE004339
E-value5e-377e-553e-50
Identity52%71%67%
Score (bits)148207192
Координаты выравнивания в записи265-69611032-114636520-6948
CDS аннотирован в записи?ДаДаДа
Его координаты259-69611029-114636514-6948
AC соответствующего белка в UniProtQ9HUA4Q9CKK0Q9KNJ7

E-value находки из предыдущего пункта изменился с 3e-37 до 5e-37, т.к. увеличился размер базы данных. Кроме того, появилось еще две находки с E-value<0,01.

Индексные файлы для поиска по трем геномам были получены следующим образом:

genpath=/home/export/samba/public/tmp
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
formatdb -i "$genomes" -n 3g -p F

Поиск гомологов осуществлялся следующим образом (последовательность на входе — аминокислотная):

blastall -p tblastn -d 3g -i dtd_ecoli.fasta -o tblastn3.out -e 0.01

Поиск гомологов гена белка DTD_ECOLI в геномах Pseudomonas aeruginosa, Vibrio cholerae и Pasteurella multocida посредством программы BLASTN

ЗАДАНИЕ: Скопируйте в свою рабочую директорию fasta-файл с гeном своего белка (см. предыдущее занятие). Поищите гомологов этого гена в трех геномах программой BLASTN. Опишите результаты.

Программа нашла только одного гомолога с E-value<0,01:

ОрганизмPasteurella multocida
ACAE006198
E-value0,001
Identity87%
Score (bits)42,1
Координаты выравнивания в записи11301-11444
CDS аннотирован в записи?Да
Его координаты11029-11463
AC соответствующего белка в UniProtQ9CKK0

Этот гомолог также обладал самым высоким E-value по результатам поиска программой TBLASTN. Два других гомолога, найденных TBLASTN, программа BLASTN не нашла.

Поиск гомологов осуществлялся следующим образом (последовательность на входе — нуклеотидная):

blastall -p blastn -d 3g -i ae016770.fasta -o tblastn3_gen.out -e 0.01

Поиск гомологов программами пакета Fasta и программой Megablast

Поиск гомологов белка DTD_ECOLI в геноме Pasteurella multocida посредством программы Fasta

ЗАДАНИЕ: Программой fasta34 поищите гомологов гена своего белка в одном из указанных геномов. Рекомендуется искать в том геноме, в котором по результатам TBLASTN имеется лучший гомолог вашего белка. Укажите, как результат поиска согласуется с результатами TBLASTN.

ОрганизмPasteurella multocida
ACAE006198
E-value9.6e-42
Identity65.753%
Score (bits)166.2
Координаты выравнивания в записи11029-11463
CDS аннотирован в записи?Да
Его координаты11029-11463
AC соответствующего белка в UniProtQ9CKK0

Результат, в принципе, согласуется с результатом TBLASTN: нашелся тот же самый ген. Однако, полученный с помощью Fasta результат оказался значительно более точным, т.к. координаты выравнивания полностью совпали с координатами в CDS.

Поиск последовательности по фрагменту при помощи Megablast

ЗАДАНИЕ: Возьмите произвольный фрагмент одного из трех геномов длиной 100-120 оснований. Измените в последовательности по возможности наименьшее число букв так, чтобы при задании измененной последовательности в качестве пробы Megablast уже не находил в геномах исходной последовательности.

В качестве фрагмента для изучения был взят участок последовательности с 577 по 696 нуклеотид (комплементарный).

Исходный фрагмент (Megablast находит):

atgaaggcattgctgcagcgcgtcggcgcggcgcgggtggaggttggcggcgaaatcgtc
ggctccatcgatcgcggcctgctggtgctggtcggggtcgagcccgaggatggcgagcgt

Измененная последовательность (Megablast не находит):

atgaaggcattgctgcagcgcgtcggcAcggcgcgggtggaggttggcggcgaaGtcgtc
ggctccatcgatcgcggcctgTtggtgctggtcggggtcgagcccgagAatggcgagcgt

По этим результатам видно, что Megablast — хорошая программа для поиска последовательности по фрагменту. Однако, для поиска гомологов она не годится, т.к. гомолог всего с четырьмя нуклеотидными заменами (очень хороший) может уже и не найтись.

Замены в последовательности, которую не находит Megablast, осуществлялись по следующей схеме: заменялся каждый 28-й нуклеотид (или 27-й, если замена 28-го приходилась на третий нуклеотид триплета, — чтобы не возникало синонимичных замен).

Поиск осуществлялся следующим образом:

megablast -d 3g -i 577-696.fasta -o res.out -e 10

Результаты поиска гомологов глициновых тРНК E.coli при помощи discontigous Megablast в геномах Pseudomonas aeruginosa, Vibrio cholerae и Pasteurella multocida

ЗАДАНИЕ: Сколько гомологов глициновых тРНК E.coli находит discontigous Megablast в трех геномах?

Количество гомологов с E-value<0,01 составляет:

для AE005174_5568 тРНК - 14
для AE005174_7805 тРНК - 2
для AE005174_10294 тРНК - 4

Посмотреть список гомологов

Поиск осуществлялся следующим образом:

megablast -d 3g -i gly.fasta -o gly.out -W 11 -D 3 -t 16 -N 2 -e 0.01


© Храмеева Екатерина, 2005