Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~dracon/t3-files/prac7-8.doc
Дата изменения: Sat Dec 24 16:15:26 2005
Дата индексирования: Tue Oct 2 10:49:19 2012
Кодировка: koi8-r

Программы пакета BLAST


Была сделана попытка посредством программы TBLASTN найти ближайшего
гомолога белка CLCA_ECOLI в геноме Pseudomonas aeruginosa, но она, к
сожалению, не увенчалась успехом. Дело в том, что если искать гомолога в
указанном геноме (Pseudomonas aeruginosa), то лучшая находка будет иметь
значение E-value, равное 0,042. Такая находка не может считаться близким
гомологом, поэтому для поиска был выбран геном Vibrio cholerae, где E-value
лучшей находки составило 2e-99, что гораздо «лучше». Других находок в
поиске по геному Vibrio cholerae с E-value меньше 0,01 не обнаружено.

AC лучшей находки в EMBL - AE004383.
Координаты выравнивания - 4876 - 6171.

Соответствующий белок аннотирован в документе банка EMBL, его
координаты: 4843 - 6249. AC этого белка из UniProtKB/Swiss-Prot - Q9KM62,
ID - CLCA_VIBCH. Этот белок имеет ту же функцию, что и CLCA_ECOLI, и был
обнаружен в как гомолог в предыдущих работах.

Далее был произведён поиск гомологов посредством программы TBLASTN в
геномах трёх организмов: Pseudomonas aeruginosa, Vibrio cholerae и
Pasteurella multocida. Лучшей находкой остался уже описанный белок
CLCA_VIBCH, его E-value составило 6e-99. Увеличение значения E-value
произошло по известной причине - из-за увеличение банка, по которому
производился поиск. Так же обнаружена ещё одна находка из Pasteurella
multocida со значением E-value меньше, чем 0,01: AC в EMBL - AE006178, E-
value - 9e-07.

Так же произведён поиск гомологов в геномах тех же трёх организмов с
помощью программы BLASTN. В качестве входной последовательности
использовалась нуклеотидная последовательность гена белка CLCA_ECOLI,
полученной в предыдущем задании. Лучшая находка совпала с лучшей находкой,
найденной посредством программы PBLASTN. Её E-value - 1e-08. Других
находок, с E-value меньше 0,01 найдено не было.

Другие программы


Fasta34.

Был произведён поиск гомологов белка CLCA_ECOLI программой fasta34 по
геному уже известной бактерии Vibrio cholerae. Найдена одна достойная
находка, E-value которой составило 1,4e-86. Других находок со значением E-
value меньше, чем 0,01 найдено не было. AC этой находки для банка EMBL
(AE004383), совпал с AC документа, найденного в предыдущем задании
программой TBLASTN, что, впрочем, совершенно не удивительно. Границы
выравнивания очень даже хорошо состыкуются с границами выравнивания,
полученные с помощью TBLASTN:

TBLASTN - 4876 - 6171

FASTA34 - 4850 - 6260

Интересно, что значение Identity для этих двух последовательностей
весьма мало - 60,5%. Выравнивание приведено в конце файла.

Megablast.

Далее был взят произвольный фрагмент одного из генома бактерии -
холерного вибриона (Vibrio cholerae) - длиной 120 оснований и был
произведён поиск по банку из геномов трёх бактерий (Pasteurella multocida,
Pseudomonas aeruginosa, Vibrio cholerae) программой Megablast. Опять-таки
не удивительно, что был найден взятый участок - 2-я хромосома, секция 40 из
93.
Далее уже проверенный фрагмент был подвержен некоторым изменениям, с
целью создать мутантный фрагмент с минимальным количеством измененных букв,
который бы не обнаруживался программой megablast на месте исходной
последовательности, при условии, что megablast был запущен с параметрами по
умолчанию.
Такой фрагмент было создать не трудно, так как известно, что
megablast, запущенный с параметрами по умолчанию, ищет слова длиной 28 букв
из данной ему последовательности идентичные фрагментам в банке, по которому
производится поиск. Следовательно, если изменить каждую 28-ю букву
фрагмента, то он перестанет находиться megablast`ом, что и было
подтверждено экспериментом. Ниже приведены исходный фрагмент, который
megablast обнаруживает, и изменённый фрагмент, который megablast не
обнаруживает в виде выравнивания. Красным отмечены изменённые буквы.



Начальный фрагмент: atggtttgacggattttcacccgacgac 28
Изменёный фрагмент: atggtttgacggattttcacccgacgaT 28

Начальный фрагмент: tttgattgaatggcaatacataccgatc 56
Изменёный фрагмент: tttgattgaatggcaatacataccgatT 56


Начальный фрагмент: tttttgtttacttatgtatttgggaatt 84
Изменёный фрагмент: tttttgtttacttatgtatttgggaatC 84


Начальный фрагмент: tatgttttttccgtaaccaaatctctca 112
Изменёный фрагмент: tatgttttttccgtaaccaaatctctcT 112


Начальный фрагмент: tgagacca 120
Изменёный фрагмент: tgagacca 120




Выравнивание к первой части:

1410 1400 1390 1380 1370 1360
CLCA_ECOLI CGCTGGCTGATGCGGCCTTGCTTCGCGCCAGTTGCTCAGCTTCCTGTTTTGCCAGCGTGC
:::::: :: :: ::: ::: ::::
CLCA_VIBCH ATGAGTTGGGGCTCTGCGGTGGTAAATCTTGTTGCTGTAATTTTTGGTTTTTCAGAGTGC
4850 4860 4870 4880 4890 4900

1350 1340 1330 1320 1310 1300
CLCA_ECOLI GCGCAAG-AATCGCCGAGTATAG--CGGTTTCCCGCCGGTAAATTGCGCTAATAGTGTTG
: : : ::: :: : ::::: :::: :: :: :: :: :: :: : :
CLCA_VIBCH G---ATGTAATAGCTGGCTATAGATGGGTTGGCCACCCAGTAACTGGGCAAAAATCACCG
4910 4920 4930 4940 4950 4960

1290 1280 1270 1260 1250 1240
CLCA_ECOLI CGCCAAGACCGGTAATAATCATTGGCAAAATGAGCTGGTAGTTATCGGTCATCTCCAGAA
:::: : : ::::::::::: ::::: :: :: :: ::::::: :::::: :: : :
CLCA_VIBCH CGCCTAAGCTGGTAATAATCAGTGGCAGGATCAGGTGATAGTTATTGGTCATTTCGATCA
4970 4980 4990 5000 5010 5020

1230 1220 1210 1200 1190 1180
CLCA_ECOLI CCAGAATGATCCCCGTTAACGGCGCGCGAATAGATGCCGCCAGTAATGCCCCCATTCCGG
: : : :: ::::: : :: :: :: : : ::: :: : :::::: ::::: :: :
CLCA_VIBCH CTAATAAAATACCCGTGATAGGTGCCCGCACGGTTGCGGCGAATAATGCACCCATACCAG
5030 5040 5050 5060 5070 5080

1170 1160 1150 1140 1130 1120
CLCA_ECOLI CAATAGCAAACGTCCCCGCCTCAAGGTGATATTGCGGAAACAGCTCAACGGCAACCATTC
:::: :::::: :::: : :::: : :: :: ::: : :: : :: :
CLCA_VIBCH CAATCGCAAACATCCCAGGTTCAATATTCAGTTCTGGGAACCACATTTTAGCGATCAAGC
5090 5100 5110 5120 5130 5140

1110 1100 1090 1080 1070 1060
CLCA_ECOLI CGAAAGCGGTTCCCAGCACAGTACCCAGCGCCAGCATCGGGGCAAAAATACCGCCCGGCG
:::: :: :: : :: ::::: :: :: ::::: :: :::::::: :: :: ::::
CLCA_VIBCH CGAAGGCATAACCAAACAGGGTACCTAGTGCGAGCATAGGAGCAAAAATCCCCCCGGGCG
5150 5160 5170 5180 5190 5200

1050 1040 1030 1020 1010 1000
CLCA_ECOLI CGCCGGAAGAGAAGCAGAGTAAGGTGGTAATGACCCGCGCGACGAAGATAAACACCAGCA
: :: :: ::::: ::::: ::::::: : :: : :: :: : : :: : :
CLCA_VIBCH CACCTGAGCCAAAGCAAAGTAAAGTGGTAAAAATTCGGCCAACAAACAGTAGCAATAAAA
5210 5220 5230 5240 5250 5260

990 980 970 960 950 940
CLCA_ECOLI TTCCCATGCTGAAATTCCCCGCGGTAGCGATAGGAATCAGGTTAAAACCGCCGCCCGACG
: ::: : : : :: :: : ::::: : : : : :::::: :: ::
CLCA_VIBCH TACCCGCTCCGTAGCCGCCATTCGTGATAGTGGGAATTAAGCTGATACCGCCACC---CG
5270 5280 5290 5300 5310

930 920 910 900 890
CLCA_ECOLI TTGCTGGTGCCACAAACCCCAGCAAT----CCACACAG--ACCGCCAATCGCACCGCCCA
:: : :::: : ::::::: : : ::: :::: :: : ::: :
CLCA_VIBCH TTAACTCAGGCACATAGAGCAGCAATAACCCGAAGCAGCCACCGATCATTGAACCCGTTA
5320 5330 5340 5350 5360 5370

880 870 860 850 840 830
CLCA_ECOLI TTAGCACCCATTT--GGTAATATTGCCGCCGTGCACACGGTGCAGCAAATCCTGCATCCC
::: : ::: ::: :: : : : : ::: : :: ::: ::
CLCA_VIBCH ATAGATAGCGTTTACGGTCATTGCGATGAAATTTA-ACG----AACAGATCTTGGGCAAG
5380 5390 5400 5410 5420 5430

820 810 800 790 780 770
CLCA_ECOLI CAGCACCCATTTATTAAAAATAGGGCCGAAAATGCCAAAAATAATACCGAGGATCAGATA
: : : ::::: : ::: :: : :::::: : : ::: :: : : :
CLCA_VIBCH GGTAATTAAATAGTTAAACAGCACGCCAAATACGCCAAATAGAGCACCAAGAAGTAAGAA
5440 5450 5460 5470 5480 5490

760 750 740 730 720 710
CLCA_ECOLI AAGCCACAGCGTATTAA---GCGGCGCATCAGAAAGTTTACCGACGTCAATCAACGCAAC
: :: ::::: : ::::::::: : : : : ::: :::: :::: :
CLCA_VIBCH TAACCCTAGCGTCGACAATTCCGGCGCATC--GTATTGTGGCATCGT-GATCACCGCATC
5500 5510 5520 5530 5540 5550

700 690 680 670 660 650
CLCA_ECOLI TTCATGATTAAAAATCCGGTACATAATGGTCGACATAATGACACCAATAAATACCGCTTT
:: :: : : :: ::: :::: : : : : :: :: : :::::
CLCA_VIBCH TTGTCCGTTGATCACGCGAAACACAATGTTGGCCGCTACTGCAGAGATGATCACCGCACG
5560 5570 5580 5590 5600 5610

640 630 620 610 600 590
CLCA_ECOLI AATCGAAATTAACGTATAGCGAAACTGCGGACGCATCTCTTCGATAATAAACAAAATACC
: ::: :: : ::::::::::: ::::: :::::::::::::: : ::::: ::: ::
CLCA_VIBCH TACCGAGATCAGGGTATAGCGAAATTGCGGTCGCATCTCTTCGATCACAAACATAATGCC
5620 5630 5640 5650 5660 5670

580 570 560 550 540 530
CLCA_ECOLI CGCCAGCGGCGCGTTAAAGGCCGCAGCCAGCCCCGCAGCAGCACCGGTTGCCAGCAGCGT
:: :: ::::::::::: :: ::::: :: :: : :: ::::: : ::::::: :
CLCA_VIBCH AGCAAGAGGCGCGTTAAATGCGGCAGCAAGACCTCCTGCCGCACCCGCAGCCAGCAATGA
5680 5690 5700 5710 5720 5730

520 510 500 490 480 470
CLCA_ECOLI ATGGCGAGCTTCGTCACCTTTCAGGCGGAAAATATCAAGCACCATACGGCCAATGTTACC
::::: : :: ::: ::: : ::::::::::: : ::: :: :::: : ::
CLCA_VIBCH GTGGCGCGTATCTTCATTTTTGACACGGAAAATATCGGAGATCATCCGCCCAACGGCGCC
5740 5750 5760 5770 5780 5790

460 450 440 430 420 410
CLCA_ECOLI GCCGATCTGCACGGTTGGCCCTTCGCGCCCCAACACCATGCCTCCGCCGAGTGTCCCCAG
::: :: :: :: :: :: :::::::: :: : :::::: ::: ::: : : ::::
CLCA_VIBCH GCCCATTTGTACTGTAGGACCTTCGCGGCCGAGCACCATACCTGAGCCCAACGCGCCCAT
5800 5810 5820 5830 5840 5850

400 390 380 370 360 350
CLCA_ECOLI CCCGCCAAAGAACTTCACCGGCAATACACGCCACCAGCGAACGGGACGTTGATCTTCCAG
:::::::: :: ::::: :::::::: :::::::: :: ::::: :: : ::::
CLCA_VIBCH GCCGCCAAAAAATTTCACGGGCAATACTCGCCACCAACGCACGGGGCGCATGCCATCCAT
5860 5870 5880 5890 5900 5910

340 330 320 310 300 290
CLCA_ECOLI CGCCCCTTCAATTTCCGGGATCCCCGAACCACCTGCTTCCGGCGCGTATTTGCGCACCAA
::: ::::::::::: :: :: :: :: :: : ::::: :: :: : : : :: :
CLCA_VIBCH CGCGCCTTCAATTTCTGGAATACCAGATCCCGCAGCTTCAGGAGCAAAGCGGTGGACAAG
5920 5930 5940 5950 5960 5970

280 270 260 250 240 230
CLCA_ECOLI AAAGTAGCCAAACATCGCCAGCA--CCGCCGAACAGAGAAAAGCGACGGTTAACAGAAGC
::: ::::: : : :: :: : ::: :: : :::::::: : : :: :
CLCA_VIBCH AAAATAGCCGATGAAAGCGAGAAATGCGCTGATC--AGAAAAGCAGCCAACCAGAGTGGT
5980 5990 6000 6010 6020

220 210 200 190 180 170
CLCA_ECOLI GGATAATTATCAGCAGTATGTACCAGCGCCCCCATACGTTGGTTCTGCAACCAGGCG-AC
: : :: :: : : ::: : :::: : ::::: :: :: : ::
CLCA_VIBCH AAAAAGCTACCAATTTCACTTTTTAGCCAATCGGTACG-AGTTTCTGAGACTAGATGTAC
6030 6040 6050 6060 6070 6080

160 150 140 130 120 110
CLCA_ECOLI ACCTTTGTCAAAAGCAACCGCTGCCAGCCCAACAAGCGTGCCGACGACTGCCGCCATAAA
: : :::::: : : : ::: : : : :: :: : : : :::
CLCA_VIBCH CGCCTGTTCAAAATAGGTGCCGACTAAGCCAGCCAAAATACCAACCAGCAATGATAAAAA
6090 6100 6110 6120 6130 6140

100 90 80 70 60 50
CLCA_ECOLI CAAAATGGCTAACGGGGTTTTATCGCGCTCAAGAAGTTGGCGAATCAGTTGTCTGCGTCG
::::: : :: :: :: ::::: :::: :::: :::::
CLCA_VIBCH CAAAACTGAGAAAGGCGTCTTATCTTTGGAGAGAAATTGGTTAATCACATCTTTAGGCAT
6150 6160 6170 6180 6190 6200

40 30 20 10
CLCA_ECOLI CAGGCGCGCGGCCTGCGGTGTTTCTAAAGAGGGAGTATCAGTTTTCAT

CLCA_VIBCH TTTGGCCAGCAAACTGATCTTAAACGTCTCTCTTGTTGACATACTAATGACACCTATTGA
6210 6220 6230 6240 6250 6260