Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~kinta/Term3/protocol3.html
Дата изменения: Sun Oct 29 15:30:26 2006
Дата индексирования: Tue Oct 2 10:06:21 2012
Кодировка: Windows-1251
MEGABLAST назад к третьему семестру

Поиск сходных нуклеотидных последовательной, не кодирующих белки

1. Определение, какая тРНК была использована рибосомой при присоединении 4-ого аминокислотного остатка к растущей цепи белка DYR_ECOLI

Данные представлены в таблице:

Аминокислотный остаток в 4-ой позиции белка DYR_ECOLI: L
Соответствующий кодон в гене folA: 5'-СTG-3'(вырожденная позиция - последняя - G, т.е и СTT, СTC, СTA, СTG кодируют лейцин. Кроме того, первый нуклеотид C можно также считать условно вырожденным, т.к. кодон TTG также кодирует лейцин, в отличие от кодонов TTT, TTA, TTC)
"Идеальный" (т.е. полностью комплементарный) антикодон: 5'-CAG-3'
Сколько можно было бы ожидать разных tRNA для остатка L, если опираться на генетический код? Можно было ожидать 6 вариантов tRNA, т.к. в генетическом коде используется 6 вариантов для кодирования лейцина: TTA, TTG, CTT, CTC, CTA и CTG.
Сколько разных тРНК для остатка L аннотировано в геноме кишечной палочки? 5 разных tRNA, причем для tRNA1 приведено 4 разных гена
  имя гена локализация гена в геноме распознаваемый кодон антикодон
Характеристика лейциновой tRNA1: leuT 3980629..3980715 CUG CAG
leuV complement(4604102..4604188) CUG CAG
leuP complement(4604223..4604309) CUG CAG
leuQ complement(4604338..4604424) CUG CAG
Характеристика лейциновой tRNA2: leuU complement(3320094..3320180) CUY GAG
Характеристика лейциновой tRNA3: leuW complement(696186..696270) CUR UAG
Характеристика лейциновой tRNA4 leuZ complement(1989839..1989925) UUR UAA
Характеристика лейциновой tRNA5: leuX 4494428..4494512 UUR CAA
Результат поиска всех лейциновых тРНК у Escherichia coli K-12*:
 
FT                   /note="codons recognized: CUR; anticodon: UAG leucine
FT                   /note="codons recognized: UUR; anticodon: UAA leucine
FT                   /note="codons recognized: CUY; anticodon: GAG leucine
FT                   /note="codon recognized: CUG; anticodon: CAG leucine tRNA1;
FT                   /note="codons recognized: UUR; anticodon: CAA leucine
FT                   /note="codon recognized: CUG; anticodon: CAG leucine tRNA1;
FT                   /note="codon recognized: CUG; anticodon: CAG leucine tRNA1;
FT                   /note="codon recognized: CUG; anticodon: CAG leucine tRNA1;     

* Приведены не все строки, а только для лейцина (не изолейцина). Было найдено 5 лейциновых тРНК. Для всех пяти распознаваемые кодоны были указаны выше в качестве ожидаемых. Была выбрана первая тРНК: tRNK1, т.к. ее распознаваемый кодон и антикодон полностью совпали с указаными. Т.е. можно сделать вывод, что данная тРНК была использована рибосомой при присоединении 4-ого аминокислотного остатка к растущей цепи белка DYR_ecoli.

Команды, использованные при выполнении данного упражнения:
1.) grep "codon.*leucine" ecoli.embl > result.txt
При этом программа находит не только лейцин, но и изолейцин.
2.) seqret -sask ecoli.embl
(в качестве параментров указывались координаты и имя выходного файла). В рез-те получен файл с последовательностью tRNA1.

2. Поиск гомологичных тРНК в родственном геноме

Задача - найти в геноме Bacillus subtilis последовательность, наиболее похожую на последовательность тРНК из E.coli, выбранную в упр. 1. Найденные данные сведены в таблицу. Поиск проводился с помощью 4-х разных программ для быстрого поиска сходных нуклеотидных последовательностей.
Программа BLASTN FASTA MegaBLAST discontiguous MegaBLAST
Длина якоря 11 нуклеотидов 6 нуклеотидов 28 нуклеотидов 11 или 12 нуклеотидов
Результаты поиска result_blastn
Приведены 12 выравниваний с фрагментами полного генома сенной палочки (AL009126_GR Bacillus subtilis (strain 168) chromosome, complete sequence).
result_fasta
Приведены 2 выравнивания с фрагментами полного генома сенной палочки (AL009126_GR Bacillus subtilis).
result_mega
Ничего не найдено
result_dismega
Приведено 1 выравнивание с фрагментами полного генома сенной палочки (AL009126_GR Bacillus subtilis).
Число находок с E-value < 0,01 1 0 - 1
Характеристика лучшей находки:
      E-value 4*10-12 2 - 4*10-09
      длина выравнивания 65 нуклеотидов 9 нуклеотидов - 67 нуклеотидов
      вес выравнивания 65.9 бита (33) 22.6 бита - 56.0 бита (28)
      координаты в геноме 3172531..3172467 5508..5627 - 95652..956712
Аннотация лучшей находки по записи EMBL (для BLASTN приведены данные для выравниваний с E-value меньше 0,01):
      имя гена для 3172531..3172467: trnB-Leu1
для 528741..528765: trnS-Leu1
для 95652..95715: trnJ-Leu1
gyrB   trnJ-Leu1
      это тРНК? для 3172531..3172467: да
для 528741..528765: да
для 95652..95715: да
нет   да
      это тоже лейциновая тРНК? ля 3172531..3172467: да
для 528741..528765: да
для 95652..95715: да
нет   да

Примечание:
Через srs оказалось невозможно получить embl-запись полного генома, выдавались лишь отдельные участки, а вести по ним поиск очень не удобно. Существует другой банк данных - Genome Reviews, содержащий полные геномы. В нем был найден полной геном сенной палочки.

Команды, использованные при выполнении данного упражнения:
1.) formatdb -i bs_genome.fasta -n bs -p F
Результат: три индексных файла (bs.nhr, bs.nsq, bs.nin) генома сенной палочки (Bacillus subtilis).
2.) blastall -p blastn -d bs -i leuT.fasta -o result_blastn.txt
Результат: файл с одной находкой и 12 выравниваниями, созданными программой BLASTN.
3.) fasta34 leuT.fasta bs_genome.fasta 6
Длина якоря была (6) и входные файлы были указаны в командной строке, были заданы вопросы, сколько находок показать, показать ли еще, отображать ли выравнивания и сколько. Результат: файл с 1 находкой- полный геном сенной палочки, причем E-valeu равно 2, т.е находка не представляет ценности.
4.) megablast -d bs -i leuT.fasta -D 2 -o result_mega.txt
Результат: файл, в котором написано, что ничего не найдено.
5.) megablast -d bs -i leuT.fasta -D 2 -N 1 -W 11 -t 21 -o result_dismega.txt
Результат: файл с одной находкой и 1 выравниванием. Параметр -t (по сути длина паттерна) может принимать значения 16, 18 или 21, было выбрано значение 21, чтобы уменьшить число случайных находок. Значение параметра -W равно 11 (количество значащих позиций в паттерне).

Комментарии
При поиске с помощью программы MegaBLAST ничего не было найдено. Это объясняется тем, что длина якоря очень велика (28 нуклеотидов). Остальные 3 программы нашли полный геном сенной палочки (AC AL009126). BLASTN привела 12 выравниваний, среди них E-value первых трех меньше 0,01. Все три находки соответствуют лейциновым тРНК, в записи полного генома указан одинаковый для всех трех тРНК АС в EMBL: AL009120, это и есть AC полного генома. Одна из этих тРНК была также найдена с помощью discontiguous MegaBLAST (программа discontiguous MegaBLAST выдала только 1 выравнивание, и его координаты практически совпали с координатами соответствующего выравнивания в BLASTN). С помощью FASTA получены неудовлетворительные рез-ты, т.к. E-value равен 2. И ни одно из этих 2 выравниваний не соответстаует тРНК.
Таким образом, эффективными для поиска гомологичных тРНК в родственном геноме оказались только две программы: BLASTN и discontiguous MegaBLAST. Причем BLAST справился с задачей лучше, это вероятно связано с оптимальным размером якоря и с особенностями алгоритма BLASTN.


© Виноградова Светлана