Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~solveig/Practice1/EMBL.html
Дата изменения: Wed Oct 10 06:00:28 2007 Дата индексирования: Tue Oct 2 11:03:18 2012 Кодировка: Windows-1251 |
Банк EMBL
I.
В первом
задании нам необходимо было найти все ссылки на банк EMBL в документе
SwissProt, описывающем белок Azor_Ecoli.
Затем нужно было сравнить характеристики полученных записей в кратком
резюме.
На сервере kodomo-count.cmm.msu.ru был получен документ SwissProt
(команда entret sw: P41407 -auto, где P41407 - код доступа белка). Полученный
документ можно посмотреть здесь.
В поле DR документа нашли коды доступа записей EMBL: AP009048, U00096,
D90780, D90779, D42105, D85081 Поиск в SRS проводился по банку EMBL, копия
запроса:
"((((([embl-AccNumber:AP009048*]
| [embl-AccNumber:D90780*]) | [embl-AccNumber:D90779*]) |
[embl-AccNumber:U00096*]) | [embl-AccNumber:D42105*]) |
[embl-AccNumber:D85081*])"
Результаты представлены в таблице 1:
Идентификатор записи EMBL |
Тип молекулы |
Класс данных |
Раздел EMBL |
Дата создания документа |
Описание |
Длина последовательности |
U00096 |
геномная ДНК |
STD/Стандартный |
PRO/Прокариоты |
23.02.2006 |
Полный геном Escherichia coli K12
MG1655, |
4639675 |
AP009048 |
геномная ДНК |
STD/Стандартный |
PRO/Прокариоты |
22.08.2006 |
Полный геном Escherichia
coli W3110 |
4646332 |
D42105 |
геномная ДНК |
STD/Стандартный |
PRO/Прокариоты |
11.05.1995 |
Ген из Escherichia
coli, гипотетического белка из семейства DEAH РНК-геликаз, часть полной
кодирующей последовательности. |
4611 |
D85081 |
геномная ДНК |
STD/Стандартный |
PRO/Прокариоты |
09.04.1998 |
Ген Escherichia
coli, из зоны окончания репликации, часть полной кодирующей
последовательности. |
7407 |
Сходства: Все записи являются геномными ДНК, принадлежат к стандартному
классу данных и разделу Прокариоты.
Различия: Все записи отличаются
датой создания и длиной последовательности, стоит отметить , что первоначально
записей было 6, но в таблицу попали только 4, так как 2 оказались замещенными
записью AP009048, видимо после сиквенирования полного генома, надобность в его
отдельных недостоверных участках
отпала.
Так же примечательна запись D42105: следует заметить, что запись
датирована 11.05.1995 ,
а первое упоминание гена 'acpD'
и собственно белка ACPD_ECOLI в SRS датировано
01.11.1995 . Но последовательность,
содержащаяся в этом файле действительно является частью последовательности
кодирующей белок ACPD_ECOLI ,
поэтому, вполне возможно, что первоначально ученными была получена только
небольшая часть последовательности и
было недостаточно данных, чтобы точно ее аннотировать.
II.
Во втором задании
необходимо было выбрать 2 записи из предыдущего упражнения и продолжить их изучение
(заполнив таблицу 2). Затем требовалось извлечь из полученных записей
нуклеотидные последовательности, кодирующие белок AZOR_ECOLI, в виде отдельных
файлов. И сравнить последовательности с помощью программы needle.
Для дальнейшего изучения мной были выбраны записи D42105 и D85081 (не
лучший вариант, в силу всего выше изложенного,
но работа с полными геномами была бы очень затруднительной).
Результаты представлены в таблице 2:
|
I |
II |
ID записи |
D42105 |
D85081 |
Начало гена в записи |
1 |
6585 |
Конец гена в записи |
433 |
7190 |
Направление гена |
Обратное |
Обратное |
Примечания* |
Данная запись содержит в себе ссылки на
2 статьи. В последний раз данная запись обновлялась 22.04.2006. В поле FT указано,
что используется таблица генетического кода ?11 и стартовый кодон ?1. Запись
содержит цепь ДНК комплементарную той, на которой расположен ген. Так же
указан сайт связывания с рибосомой (с 681 по 683). |
Данная запись содержит в себе ссылки на
4 статьи. С момента создания данная запись не обновлялась и не изменялась. В
поле FT указано, что используется таблица генетического кода ?11 и стартовый
кодон ?1. Запись содержит цепь ДНК комплементарную той, на которой расположен
ген. Так же указаны 3 сайта связывания с рибосомой, причем для 3-ей указан
участок комплементарной цепи. (с 1992 по 1994, с 3463 по 3465, с 7197 по 7200) |
Далее из полученных записей были извлечены нуклеотидные
последовательности, кодирующие белок AZOR_ECOLI, в виде отдельных файлов: AZOR_gene1.html и AZOR_gene2.html .
С помощью программы needle было произведено выравнивание, процент идентичности
составил - 71,5%. Выравнивание можно посмотреть здесь.
Такой результат выравнивания можно объяснить очень просто, ведь
последовательность D85081 больше последовательности D42105 на 202 нуклеотида, а
значит, что последовательность D42105 составляет 71,5 % от последовательности
D85081. Результат выравнивания можно сделать равным 100%, если использовать
программы локального выравнивания, например water.
III. Необходимо было изучить информацию о гене "ARHGEF2"
из записи AL355388 и на основе полученных данных схематично изобразить структуру транслируемых
участков. Полученные данные о гене "ARHGEF2"
можно просмотреть здесь. Примечательно, что в документе AL355388 содержится 4 записи об этом гене. Причем в записях
есть несовпадения начала и концов
экзонов, и первая запись содержит на 1
экзон меньше. Это объясняется тем что, записи соответствуют 4 разным белкам, содержащим
данный ген. Для более подробного изучения была выбрана первая запись,
соответствующая белку CAH72627.1:
ћ Ген
находиться на комплементарной цепи:
<-[ 41622.. 41695]--...--[62836.. 62962]----
ћ Общее число экзонов в гене: 21
ћ общее число интронов в гене: 20
ћ Длина самого длинного экзона: 443
ћ Длина самого короткого экзона: 35
ћ Длина самого длинного интрона: 2284
ћ Длина самого короткого интрона: 130
Расчеты
проводились при помощи Excel .
Спивак
Ольга |