|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~lupus/Term3/blast.html
Дата изменения: Fri Mar 5 02:27:16 2010 Дата индексирования: Tue Oct 2 07:16:50 2012 Кодировка: Windows-1251 |
Запущены следующие команды:
formatdb -i xc_genome.fasta -n xc -p F
blastall -p tblastn -d xc -i p0a6y1.fasta -e 0.001 > p0a6y1.out
Выходной файл: p0a6y1.out
| Число находок с Е-value<0,001 | 3 | |
| Характеристика лучшей находки: | ||
| E-value находки | 9e-32 | |
| Название геномной последовательности | >AE012326 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 234 of 460 of the complete genome. | |
| Координаты выравнивания(-ий) в найденной последовательности | 7801-7529 | |
seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): xc_genome.fasta:AE012326
Begin at position [start]: 7529
End at position [end]: 7801
Reverse strand [N]: Y
output sequence(s) [ae012537.fasta]:
Выходной файл: ae012326.fasta
На сайте EBI (http://www.ebi.ac.uk/Tools/) запустим поиск этой последовательности в банке "EMBL standard prokaryote".
Необходимо: На страничке "Bioinformatic tools" пойдите по гиперссылке "BLAST" и выберите "NCBI-BLAST2 Nucleotide". Нужные параметры стоят на странице сервиса по умолчанию. Выберите нужный банк в меню "Database". Последовательность можно скопировать из файла в окошко, но можно и не делать этого, а взамен воспользоваться функцией "Upload a file". На странице с результатом поставьте галочку в checkbox против первой находки (убедитесь, что Identity=100%) и нажмите кнопку "Show alignments".
AC записи EMBL CP000050 и координаты находки в этой записи 2324921-2325133.У первой находки (CP000050) был выбран режим "Show Alignments". Была выдана следующая информация:
>EM_PRO:CP000050; CP000050 Xanthomonas campestris pv. campestris str. 8004,
complete genome.
Length = 5,148,708
Plus Strand HSPs:
Score = 1365 (210.9 bits), Expect = 1.5e-52, P = 1.5e-52
Identities = 273/273 (100%), Positives = 273/273 (100%), Strand = Plus / Plus
Query: 1 ATGACCAAGTCCGAATTGATCGAAATCCTGGCGCGACGCCAAGCGCATCTGAAGTCGGAC 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 2324861 ATGACCAAGTCCGAATTGATCGAAATCCTGGCGCGACGCCAAGCGCATCTGAAGTCGGAC 2324920
Query: 61 GATGTGGATCTGGCGGTCAAATCGCTGCTTGAAATGATGGGGCAGGCCTTGTCCGATGGT 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 2324921 GATGTGGATCTGGCGGTCAAATCGCTGCTTGAAATGATGGGGCAGGCCTTGTCCGATGGT 2324980
Query: 121 GATCGGATCGAAATCCGTGGGTTTGGCAGCTTCTCGCTGCATTACCGCCCGCCACGCCTG 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 2324981 GATCGGATCGAAATCCGTGGGTTTGGCAGCTTCTCGCTGCATTACCGCCCGCCACGCCTG 2325040
Query: 181 GGCCGCAACCCGAAGACCGGTGAATCGGTCGCGCTGCCTGGCAAGCATGTTCCGCATTTC 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 2325041 GGCCGCAACCCGAAGACCGGTGAATCGGTCGCGCTGCCTGGCAAGCATGTTCCGCATTTC 2325100
Query: 241 AAACCCGGCAAGGAGCTGCGCGAGCGCGTGAGC 273
|||||||||||||||||||||||||||||||||
Sbjct: 2325101 AAACCCGGCAAGGAGCTGCGCGAGCGCGTGAGC 2325133
Полная запись EMBL получена с помощью команды: entret embl:CP000050 -auto
Информация о поле FT в полной записи:FT CDS 2324861..2325172 FT /codon_start=1 FT /transl_table=11 FT /locus_tag="XC_1925" FT /product="integration host factor beta subunit" FT /db_xref="GOA:Q4UVD5" FT /db_xref="HSSP:1B8Z" FT /db_xref="InterPro:IPR000119" FT /db_xref="InterPro:IPR005685" FT /db_xref="InterPro:IPR010992" FT /db_xref="InterPro:IPR020816" FT /db_xref="UniProtKB/Swiss-Prot:Q4UVD5" FT /protein_id="AAY48988.1" FT /translation="MTKSELIEILARRQAHLKSDDVDLAVKSLLEMMGQALSDGDRIEI FT RGFGSFSLHYRPPRLGRNPKTGESVALPGKHVPHFKPGKELRERVSSVVPVDMVDAAD"Координаты CDS: 2324861..2325172
Запись сохранена с помощью команды:
entret embl:X04864 -autoКоординаты в записи CDS: 1..600
Кодирующая последавательность была вырезана в файл:
seqret "embl:X04864[1:600]" X04864.fastaФайл: X04864.fasta
Поиск гомологов гена в геноме Xanthomonas campestris программой BLASTN
Запущены следующие команды:
blastall -p blastn -d xc -i X04864.fasta -e 10 > X04864.out
E-value вводил 10, т.к при 0.001 гомологов не находил.
Выходной файл: X04864.out | Характеристика лучшей находки:E-value <10 | ||
| E-value находки | 0.010 | |
| Название геномной последовательности | >AE012243 AE008922 Xanthomonas campestris pv. campestris str. | |
| Координаты выравнивания(-ий) в найденной последовательности | 8754-8772 | |
entret embl:d89965Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок (длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода)
getorf -minsize 30 -find 1 -table 11
Finds and extracts open reading frames (ORFs)
Input nucleotide sequence(s): d89965.entert
protein output sequence(s) [d89965.orf]:
Получил файл: d89965.orf
>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS complete cds. MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE LTPWLRIQSTNPVQKYGA
>sp|P0A7B8.2|HSLV_ECOLI RecName: Full=ATP-dependent protease hslV; AltName: Full=Heat
Length=176
Score = 254 bits (648), Expect = 1e-67, Method: Compositional matrix adjust.
Identities = 125/125 (100%), Positives = 125/125 (100%), Gaps = 0/125 (0%)
Query 2 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL 61
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
Sbjct 1 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL 60
Query 62 FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL 121
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
Sbjct 61 FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL 120
Query 122 IAIGS 126
IAIGS
Sbjct 121 IAIGS 125
Задача- определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии Xanthomonas campestris
1 Я запустил blastn и в качестве последовательности для поиска указал trna_ecoli.fasta , а в качестве банка- геном бактерии проиндексированныйblastall -p blastn -d xc -i trna_ecoli.fasta -m 8 > trna_ecoli.txt2 Создал колонку из названий входных последовательностей командой
grep ">" trna_ecoli.fasta3 Создал скрипт из команд, выдающих число находок для каждой последовательности
(чтобы сделать файл со скриптом исполняемым:chmod +x script.scr и можно его запускать: ./script.scr)
Сделала тоже самое для E-value<0.001
megablast -D 2 -m 9 -o trna_ecoliM.txt -d xc -i trna_ecoli.fasta megablast -D 2 -m 9 -W 11 -t 16 -N 1 -o trna_ecolidm.txt -d xc -i trna_ecoli.fastaПараметры:
-D - вид выходного файла. значение 2 - стандартная выдача -t - длина поискового слова, с учетом "разрывов". Может принимать значения 16, 18, 21. Выбрано 16 -W - длина поискового слова, без учета "разрывов" Может принимать значения 11 или 12 Выбрано 11 -N - тип поисковых слов. 0 - для поиска по кодирующим последовательностям. 1 - для поиска по некодирующим последовательностям. 2 - и по тем, и по другим. Выбрано значение 1, так как поиск ведется по некодирующим последовательностям.
Отчетный Excel-файл trna.xlsx
Выравнивание в BLASTN:
>AE012363 AE008922 Xanthomonas campestris pv. campestris str. ATCC
33913, section 271 of 460 of the complete genome.
Length = 8145
Score = 95.6 bits (48), Expect = 5e-21
Identities = 69/76 (90%)
Strand = Plus / Minus
Query: 2 gcggggtggagcagcctggtagctcgtcgggctcataacccgaagatcgtcggttcaaat 61
|||||||||||||| |||| ||||||||||||||||||||||||| ||| |||||||||
Sbjct: 205 gcggggtggagcagtctggcagctcgtcgggctcataacccgaaggtcgcaggttcaaat 146
Query: 62 ccggcccccgcaacca 77
|| |||||||| ||||
Sbjct: 145 cctgcccccgctacca 130
Гомологичный участок AE012363 был вырезан в отдельный файл с помощью команды:
seqret -sask Reads and writes (returns) sequences Input (gapped) sequence(s): xc_genome.fasta:AE012363 Begin at position [start]: 130 End at position [end]: 205 Reverse strand [N]: Y output sequence(s) [ae012363.fasta]: metY.fastaВыходной файл: matY.fasta
# Aligned_sequences: 2
# 1: AE012363
# 2: metY
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity: 69/77 (89.6%)
# Similarity: 69/77 (89.6%)
# Gaps: 1/77 ( 1.3%)
# Score: 317.0
#
#
#=======================================
AE012363 1 -gcggggtggagcagtctggcagctcgtcgggctcataacccgaaggtcg 49
||||||||||||||.||||.|||||||||||||||||||||||||.|||
metY 1 cgcggggtggagcagcctggtagctcgtcgggctcataacccgaagatcg 50
AE012363 50 caggttcaaatcctgcccccgctacca 76
..|||||||||||.||||||||.||||
metY 51 tcggttcaaatccggcccccgcaacca 77
Запись AE012363 EMBL:
FT tRNA complement(130..206) FT /gene="XCC2514" FT /product="tRNA-Met" FT /note="Found by tRNAscan"