Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~solveig/Practice1/EMBL.html
Дата изменения: Wed Oct 10 06:00:28 2007
Дата индексирования: Tue Oct 2 11:03:18 2012
Кодировка: Windows-1251

Банк EMBL

 

[На главную][Третий семестр]

I.

В первом задании нам необходимо было найти все ссылки на банк EMBL в документе SwissProt, описывающем белок Azor_Ecoli. Затем нужно было сравнить характеристики полученных записей в кратком резюме.

 

На сервере kodomo-count.cmm.msu.ru был получен документ SwissProt (команда entret sw: P41407 -auto, где P41407 - код доступа белка). Полученный документ можно посмотреть здесь. В поле DR документа нашли коды доступа записей EMBL: AP009048, U00096, D90780, D90779, D42105, D85081 Поиск в SRS проводился по банку EMBL, копия запроса:

"((((([embl-AccNumber:AP009048*] | [embl-AccNumber:D90780*]) | [embl-AccNumber:D90779*]) | [embl-AccNumber:U00096*]) | [embl-AccNumber:D42105*]) | [embl-AccNumber:D85081*])"

Результаты представлены в таблице 1:

Идентификатор записи EMBL

Тип молекулы

Класс данных

Раздел EMBL

Дата создания документа

Описание

Длина последовательности

U00096

геномная ДНК

STD/Стандартный

PRO/Прокариоты

23.02.2006

Полный геном Escherichia coli K12 MG1655,

4639675

AP009048

геномная ДНК

STD/Стандартный

PRO/Прокариоты

22.08.2006

Полный геном Escherichia coli W3110

4646332

D42105

геномная ДНК

STD/Стандартный

PRO/Прокариоты

11.05.1995

Ген из Escherichia coli, гипотетического белка из семейства DEAH РНК-геликаз, часть полной кодирующей последовательности.

4611

D85081

геномная ДНК

STD/Стандартный

PRO/Прокариоты

09.04.1998

Ген Escherichia coli, из зоны окончания репликации, часть полной кодирующей последовательности.

7407

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сходства: Все записи являются геномными ДНК, принадлежат к стандартному классу данных и разделу Прокариоты.

Различия: Все записи отличаются датой создания и длиной последовательности, стоит отметить , что первоначально записей было 6, но в таблицу попали только 4, так как 2 оказались замещенными записью AP009048, видимо после сиквенирования полного генома, надобность в его отдельных недостоверных участках отпала.                                                                                            

Так же примечательна запись D42105: следует заметить, что запись датирована 11.05.1995 , а первое упоминание гена 'acpD' и собственно белка ACPD_ECOLI в SRS датировано 01.11.1995 . Но последовательность, содержащаяся в этом файле действительно является частью последовательности кодирующей белок ACPD_ECOLI , поэтому, вполне возможно, что первоначально ученными была получена только небольшая часть последовательности и было недостаточно данных, чтобы точно ее аннотировать.

 

II.

Во втором задании необходимо было выбрать 2 записи из предыдущего упражнения и продолжить их изучение (заполнив таблицу 2). Затем требовалось извлечь из полученных записей нуклеотидные последовательности, кодирующие белок AZOR_ECOLI, в виде отдельных файлов. И сравнить последовательности с помощью программы needle.

Для дальнейшего изучения мной были выбраны записи D42105 и D85081 (не лучший вариант, в силу всего выше изложенного, но работа с полными геномами была бы очень затруднительной).

Результаты представлены в таблице 2:



 

I

II

ID записи

D42105

D85081

Начало гена в записи

1

6585

Конец гена в записи

433

7190

Направление гена

Обратное

Обратное

Примечания*

Данная запись содержит в себе ссылки на 2 статьи. В последний раз данная запись обновлялась 22.04.2006. В поле FT указано, что используется таблица генетического кода ?11 и стартовый кодон ?1. Запись содержит цепь ДНК комплементарную той, на которой расположен ген. Так же указан сайт связывания с рибосомой (с 681 по 683).

Данная запись содержит в себе ссылки на 4 статьи. С момента создания данная запись не обновлялась и не изменялась. В поле FT указано, что используется таблица генетического кода ?11 и стартовый кодон ?1. Запись содержит цепь ДНК комплементарную той, на которой расположен ген. Так же указаны 3 сайта связывания с рибосомой, причем для 3-ей указан участок комплементарной цепи. (с 1992 по 1994, с 3463 по 3465, с 7197 по 7200)

 

Далее из полученных записей были извлечены нуклеотидные последовательности, кодирующие белок AZOR_ECOLI, в виде отдельных файлов: AZOR_gene1.html и AZOR_gene2.html . С помощью программы needle было произведено выравнивание, процент идентичности составил - 71,5%. Выравнивание можно посмотреть здесь.

Такой результат выравнивания можно объяснить очень просто, ведь последовательность D85081 больше последовательности D42105 на 202 нуклеотида, а значит, что последовательность D42105 составляет 71,5 % от последовательности D85081. Результат выравнивания можно сделать равным 100%, если использовать программы локального выравнивания, например water.

III. Необходимо было изучить информацию о гене "ARHGEF2" из записи AL355388 и на основе полученных данных схематично изобразить структуру транслируемых участков. Полученные данные о гене "ARHGEF2" можно просмотреть здесь. Примечательно, что в документе AL355388 содержится 4 записи об этом гене. Причем в записях есть несовпадения начала и концов экзонов, и первая запись содержит на 1 экзон меньше. Это объясняется тем что, записи соответствуют 4 разным белкам, содержащим данный ген. Для более подробного изучения была выбрана первая запись, соответствующая белку CAH72627.1:

ћ       Ген находиться на комплементарной цепи:

<-[ 41622.. 41695]--...--[62836.. 62962]----

 

ћ       Общее число экзонов в гене: 21

ћ       общее число интронов в гене: 20

ћ       Длина самого длинного экзона: 443

ћ       Длина самого короткого экзона: 35

ћ       Длина самого длинного интрона: 2284

ћ       Длина самого короткого интрона: 130

Расчеты проводились при помощи Excel .

 


Спивак Ольга