Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Kaspersky/term4/task1.doc
Дата изменения: Wed May 31 17:59:41 2006
Дата индексирования: Tue Oct 2 08:43:11 2012
Кодировка: koi8-r

Предсказание генов.
ФББ МГУ, 2 курс, весна 2006, Долудин Юрий

Часть 1. Поиск прокариотических генов

Задание: идентифицировать гены в фрагменте последовательности ДНК
Escherichia coli при помощи программ ORF Finder и GeneMark и сравнить
полученные результаты с аннотацией.

1.1 Оформите в виде таблицы CDS, указанные в аннотации к предложенной Вам
последовательности ДНК .
результаты приведены в таблице

|CDS из аннотации ecoli19 |
|начало |конец |длина |рамка |
|<1 |59 |>59 | |
|101 |763 |662 |-1 |
|760 |>863 |>103 | |



2. С помощью программы ORF Finder идентифицируйте открытые рамки считывания
в последовательности ДНК.
Результаты приведены в таблице

|CDS из аннотации ecoli19 |
|начало |конец |длина |рамка |
|101 |763 |663 |-2 |
|435 |818 |384 |+3 |
|108 |395 |288 |+3 |
|632 |862 |231 |+2 |
|1 |138 |138 |-3 |
|760 |861 |102 |-3 |


В результате работы с ORF Finder было найдено несколько ORF. Ниже
представлен результат обработки программой Format лучшего результата.
Помимо этого было представлено большое количество других результатов.
Score = 424 bits (1089), Expect = 3e-117
Identities = 220/220 (100%), Positives = 220/220 (100%), Gaps = 0/220 (0%)

Query 1 MMFWRIFRLELRVAFRHSAEIANPLWFFLIVITLFPLSIGPEPQLLARIAPGIIWVAALL
60
MMFWRIFRLELRVAFRHSAEIANPLWFFLIVITLFPLSIGPEPQLLARIAPGIIWVAALL
Sbjct 1 MMFWRIFRLELRVAFRHSAEIANPLWFFLIVITLFPLSIGPEPQLLARIAPGIIWVAALL
60

Query 61 SSLLALERLFRDDLQDGSLEQLMLLPLPLPAVVLAKVMAHWMVTGLPLLILSPLVAMLLG
120
SSLLALERLFRDDLQDGSLEQLMLLPLPLPAVVLAKVMAHWMVTGLPLLILSPLVAMLLG
Sbjct 61 SSLLALERLFRDDLQDGSLEQLMLLPLPLPAVVLAKVMAHWMVTGLPLLILSPLVAMLLG
120

Query 121 MDVYGWQVMALTLLLGTPTLGFLGAPGVALTVGLKRGGVLLSILVLPLTIPLLIFATAAM
180
MDVYGWQVMALTLLLGTPTLGFLGAPGVALTVGLKRGGVLLSILVLPLTIPLLIFATAAM
Sbjct 121 MDVYGWQVMALTLLLGTPTLGFLGAPGVALTVGLKRGGVLLSILVLPLTIPLLIFATAAM
180

Query 181 DAASMHLPVDGYLAILGALLAGTATLSPFATAAALRISIQ 220
DAASMHLPVDGYLAILGALLAGTATLSPFATAAALRISIQ
Sbjct 181 DAASMHLPVDGYLAILGALLAGTATLSPFATAAALRISIQ 220


1.3 С помощью программы GeneMark распознать гены в последовательности ДНК.





|CDS из аннотации ecoli19 |
|начало |конец |длина |рамка |
|101 |763 |662 |-2 |
|760 |>861 |101 |-1 |


GeneMark.hmm PROKARYOTIC (Version 2.4a)
Model organism: default_genetic_code_11
Sat Feb 25 08:22:48 2006

Predicted genes
Gene Strand LeftEnd RightEnd Gene Class
# Length
1 - 101 763 663 1
2 - 760 >861 102 1



Часть 2. Поиск эукариотических генов.

Задание: дан фрагмент ДНК из генома человека, содержащий альтернативно
сплайсируемый ген. Ваша задача - найти две различные изоформы этого гена
(неодинаковые выранивания двух белков с ДНК) и некодирующие экзоны
используя программы GENSCAN, BlastX и Human Genome Browser (HGB).

2.1 С помощью программы GENSCAN выделить экзоны в последовательности ДНК и
определить их тип.

|Экзоны, предсказанные GenScan для |
|human19 |
|начало |конец |тип |
|384 |442 |Начальный |
|511 |645 |внутренний |
|893 |989 |Внутренний |
|1256 |1353 |Внутренний |
|1452 |1556 |Внутренний |
|1713 |1781 |Внутренний |
|1962 |2109 |Внутренний |
|2526 |2585 |Внутренний |
|2665 |2754 |Внутренний |
|2944 |3062 |Внутренний |
|3124 |3191 |Внутренний |
|3271 |3526 |Внутренний |
|3640 |3724 |Внутренний |
|4450 |4541 |Внутренний |
|4864 |4999 |Внутренний |
|5324 |5506 |Внутренний |
|5589 |5741 |внутренний |





| |
|>gi|6572234|emb|CAB63049.1||OTTHUMP00000042163|
|[Homo sapiens] |
|координаты по |координаты по ДНК |
|белку | |
|1 |384 |
|20 |443 |
| | |
|21 |512 |
|64 |643 |
| | |
|65 |891 |
|97 |989 |
| | |
|66 |1243 |
|187 |1779 |
| | |
|188 |1960 |
|252 |2313 |
| | |
|253 |2526 |
|272 |2585 |
| | |
|273 |2665 |
|302 |2754 |
| | |
|303 |2944 |
|341 |3060 |
| | |
|342 |3122 |
|364 |3190 |
| | |
|365 |3270 |
|450 |3527 |
| | |
|451 |3632 |
|477 |3727 |
| | |
|478 |4447 |
|509 |4542 |
| | |
|510 |4682 |
|528 |4738 |
| | |
|529 |5041 |
|552 |5112 |
| | |
|553 |5318 |
|662 |5647 |



2.2 Выделить экзоны в последовательности ДНК с помощью программы BlastX и
сравнить предсказания программ GENSCAN и BlastX.





|>gi|9621790|gb|AAF89534.1| serine |
|protease [Mus musculus] |
|координаты по |координаты по ДНК |
|белку | |
|1 |384 |
|20 |443 |
| | |
|21 |512 |
|64 |643 |
| | |
|65 |891 |
|97 |989 |
| | |
|99 |1259 |
|129 |1351 |
| | |
|130 |1450 |
|187 |1779 |
| | |
|188 |1960 |
|252 |2325 |
| | |
|253 |2526 |
|272 |2585 |
| | |
|272 |2662 |
|305 |2763 |
| | |
|314 |3321 |
|385 |3527 |
| | |
|444 |5038 |
|469 |5115 |
| | |
|470 |5321 |
|533 |5512 |
| | |
|534 |5595 |
|583 |5744 |

Cравнить предсказания программ GENSCAN и BlastX.


|>gi|6572234|emb|CAB63049.1||OTTHUMP00|>gi|9621790|gb|AAF| |
|000042163 [Homo sapiens] |89534.1| serine | |
| |protease [Mus | |
| |musculus] | |
|координаты по |координаты по ДНК|координаты по |координаты по |
|белку | |белку |ДНК |
|1 |384 |1 |384 |
|20 |443 |20 |443 |
| | | | |
|21 |512 |21 |512 |
|64 |643 |64 |643 |
| | | | |
|65 |891 |65 |891 |
|97 |989 |97 |989 |
| | | | |
|66 |1243 |99 |1259 |
|187 |1779 |129 |1351 |
| | | | |
| | |130 |1450 |
| | |187 |1779 |
| | | | |
|188 |1960 |188 |1960 |
|252 |2313 |252 |2325 |
| | | | |
|253 |2526 |253 |2526 |
|272 |2585 |272 |2585 |
| | | | |
|273 |2665 |272 |2662 |
|302 |2754 |305 |2763 |
| | | | |
|303 |2944 | | |
|341 |3060 | | |
| | | | |
|342 |3122 | | |
|364 |3190 | | |
| | | | |
|365 |3270 |314 |3321 |
|450 |3527 |385 |3527 |
| | | | |
|451 |3632 | | |
|477 |3727 | | |
| | | | |
|478 |4447 | | |
|509 |4542 | | |
| | | | |
|510 |4682 | | |
|528 |4738 | | |
| | | | |
|529 |5041 |444 |5038 |
|552 |5112 |469 |5115 |
| | | | |
|553 |5318 |470 |5321 |
|662 |5647 |533 |5512 |
| | | | |
| | |534 |5595 |
| | |583 |5744 |


Красным цветом покрашены отличия изоформ - альтернативные экзоны - экзоны,
которые отсутствуют в другой изоформе, либо покрывают собой интрон,
идентифицированный в другой изоформе, либо имеют альтернативный 5'- или 3'-
конец.
Изначально, данные изоформы отличались количеством экзонов, но в
последствии после разбиения экзонов со стоп-кодонами на два, получилось
одинаковое количество экзонов в изоформах. Это вызвано тем, что программа
BlastX некорректно определяет границы экзонов.


2.3 Найти данный ген в геноме человека, используя программу BLAT в Human
Genome Browser. Выделить кодирующие и некодирующие экзоны.

Найденный фрагмент генома:
1) На обратной цепи
2) геномные координаты: 48986072 - 48992292
3) локализируется в 22 хромосоме
4) 48992293 - OFFSET

[pic]


Найденные в Human Genome Browser экзоны


|идентификатор мРНК |
|начало |конец экзона|тип экзона |
|экзона | | |
|319 |433 |Смешанный |
|503 |636 |кодирующий |
|1247 |1344 |кодирующий |
|1443 |1547 |кодирующий |
|1704 |1772 |кодирующий |
|1953 |2079 |кодирующий |
|2239 |2304 |кодирующий |
|2517 |2576 |кодирующий |
|2656 |2745 |кодирующий |
|2935 |3041 |кодирующий |
|3115 |3182 |кодирующий |
|3262 |3517 |кодирующий |
|3631 |3715 |кодирующий |
|4441 |4532 |кодирующий |
|4672 |4728 |кодирующий |
|5031 |5109 |кодирующий |
|5315 |5497 |кодирующий |
|5580 |5732 |кодирующий |
|5877 |5937 |смешанный |

Все найденные экзоны были предсказаны программой BlastX.