Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~Khrameeva/t3_html/homol.html
Дата изменения: Sat Nov 5 19:17:36 2005 Дата индексирования: Tue Oct 2 11:33:25 2012 Кодировка: Windows-1251 |
ЗАДАНИЕ: Посредством программы TBLASTN найдите ближайшего гомолога своего белка в соответствующем геноме. Занесите в отчет информацию о нем и отметьте, предлагает ли BLAST другие гомологи с E-value < 0,01.
Других гомологов с E-value<0,01 TBLASTN не предлагает.
Индексные файлы были построены с помощью программы formatdb:
formatdb -i /home/export/samba/public/tmp/pa_genome.fasta -p F -n pa Поиск гомологов осуществлялся следующим образом (последовательность на входе аминокислотная):
blastall -p tblastn -d pa -i dtd_ecoli.fasta -o tblastn.out -e 0.01
Организм Pseudomonas aeruginosa AC AE004921 E-value 3e-37 Identity 52% Score (bits) 148 Координаты выравнивания в записи 265-696 CDS аннотирован в записи? Да Его координаты 259-696 AC соответствующего белка в UniProt Q9HUA4
ЗАДАНИЕ: Создайте в своей директории индексные файлы BLAST для поиска по всем трем геномам сразу. Запустите TBLASTN по трем геномам. Отметьте в отчете, как изменился E-value находки из предыдущего пункта, а также сколько всего имеется находок с E-value < 0,01.
E-value находки из предыдущего пункта изменился с 3e-37 до 5e-37, т.к. увеличился размер базы данных. Кроме того, появилось еще две находки с E-value<0,01.
Индексные файлы для поиска по трем геномам были получены следующим образом:
genpath=/home/export/samba/public/tmp
Поиск гомологов осуществлялся следующим образом (последовательность на входе аминокислотная):
blastall -p tblastn -d 3g -i dtd_ecoli.fasta -o tblastn3.out -e 0.01
Pseudomonas aeruginosa Pasteurella multocida Vibrio cholerae AC AE004921 AE006198 AE004339 E-value 5e-37 7e-55 3e-50 Identity 52% 71% 67% Score (bits) 148 207 192 Координаты выравнивания в записи 265-696 11032-11463 6520-6948 CDS аннотирован в записи? Да Да Да Его координаты 259-696 11029-11463 6514-6948 AC соответствующего белка в UniProt Q9HUA4 Q9CKK0 Q9KNJ7
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
formatdb -i "$genomes" -n 3g -p F
ЗАДАНИЕ: Скопируйте в свою рабочую директорию fasta-файл с гeном своего белка (см. предыдущее занятие). Поищите гомологов этого гена в трех геномах программой BLASTN. Опишите результаты.
Программа нашла только одного гомолога с E-value<0,01:
Этот гомолог также обладал самым высоким E-value по результатам поиска программой TBLASTN. Два других гомолога, найденных TBLASTN, программа BLASTN не нашла.
Поиск гомологов осуществлялся следующим образом (последовательность на входе нуклеотидная):
blastall -p blastn -d 3g -i ae016770.fasta -o tblastn3_gen.out -e 0.01
Организм Pasteurella multocida AC AE006198 E-value 0,001 Identity 87% Score (bits) 42,1 Координаты выравнивания в записи 11301-11444 CDS аннотирован в записи? Да Его координаты 11029-11463 AC соответствующего белка в UniProt Q9CKK0
ЗАДАНИЕ: Программой fasta34 поищите гомологов гена своего белка в одном из указанных геномов. Рекомендуется искать в том геноме, в котором по результатам TBLASTN имеется лучший гомолог вашего белка. Укажите, как результат поиска согласуется с результатами TBLASTN.
Результат, в принципе, согласуется с результатом TBLASTN: нашелся тот же самый ген. Однако, полученный с помощью Fasta результат оказался значительно более точным, т.к. координаты выравнивания полностью совпали с координатами в CDS.
Организм Pasteurella multocida AC AE006198 E-value 9.6e-42 Identity 65.753% Score (bits) 166.2 Координаты выравнивания в записи 11029-11463 CDS аннотирован в записи? Да Его координаты 11029-11463 AC соответствующего белка в UniProt Q9CKK0
ЗАДАНИЕ: Возьмите произвольный фрагмент одного из трех геномов длиной 100-120 оснований. Измените в последовательности по возможности наименьшее число букв так, чтобы при задании измененной последовательности в качестве пробы Megablast уже не находил в геномах исходной последовательности.
В качестве фрагмента для изучения был взят участок последовательности с 577 по 696 нуклеотид (комплементарный).
Исходный фрагмент (Megablast находит):
atgaaggcattgctgcagcgcgtcggcgcggcgcgggtggaggttggcggcgaaatcgtc ggctccatcgatcgcggcctgctggtgctggtcggggtcgagcccgaggatggcgagcgt
Измененная последовательность (Megablast не находит):
atgaaggcattgctgcagcgcgtcggcAcggcgcgggtggaggttggcggcgaaGtcgtc ggctccatcgatcgcggcctgTtggtgctggtcggggtcgagcccgagAatggcgagcgt
По этим результатам видно, что Megablast хорошая программа для поиска последовательности по фрагменту. Однако, для поиска гомологов она не годится, т.к. гомолог всего с четырьмя нуклеотидными заменами (очень хороший) может уже и не найтись.
Замены в последовательности, которую не находит Megablast, осуществлялись по следующей схеме: заменялся каждый 28-й нуклеотид (или 27-й, если замена 28-го приходилась на третий нуклеотид триплета, чтобы не возникало синонимичных замен).
Поиск осуществлялся следующим образом:
megablast -d 3g -i 577-696.fasta -o res.out -e 10
ЗАДАНИЕ: Сколько гомологов глициновых тРНК E.coli находит discontigous Megablast в трех геномах?
Количество гомологов с E-value<0,01 составляет:
для AE005174_5568 тРНК - 14
Поиск осуществлялся следующим образом:
для AE005174_7805 тРНК - 2
для AE005174_10294 тРНК - 4
megablast -d 3g -i gly.fasta -o gly.out -W 11 -D 3 -t 16 -N 2 -e 0.01
© Храмеева Екатерина, 2005