Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.fbb.msu.ru/FBB/year_09/term4/task12.html
Дата изменения: Tue May 3 16:09:34 2011 Дата индексирования: Tue Oct 2 08:23:01 2012 Кодировка: Windows-1251 |
В этом последнем занятии семестра работаем с пакетом Pftools, разработанным в Expasy, в Швейцарии, и используемым для создания профилей для банка Prosite. Для вас есть две возможности: 1) работать с тем же выравниванием, что при выполнении предыдущего задания (то есть выравниванием рибосомальных белков некоторого таксона бактерий); 2) выбрать собственное семейство белковых доменов (например, вы могли иметь дело с такими доменами при выполнении курсовой работы). Во втором случае опишите в отчете кратко, что это за семейство, описано ли это семейство или какое-либо его над/под-семейство в банках Pfam и Prosite; в последнем случае – как именно описано (паттерном, профилем, и тем, и другим?)
Ваша задача: построить (с помощью пакета Pftools) профиль для своего семейства и описать его характеристики (ROC-кривую, а также селективность и чувствительность при некотором пороге) при поиске им в последовательностях бактерий из Swiss-Prot. Замечание: если вы работаете со своим семейством, то вместо бактерий можно брать эукариот (Eukaryota), архей (Archaea) или вирусы (Viruses); в принципе, можно и весь Swiss-Prot, только поиск будет занимать больше времени.
/usr/share/pftools23/blosum62.cmp
seqret sw-org:bacteria bacteria.fastaВнимание: pftools не есть часть EMBOSS и USA не понимает! Программам pftools нужны файлы определенных форматов (в данном случае удобнее всего fasta).
shuffleseq sw-org:bacteria shuffled.fastaТеперь нужно провести "фальшивый поиск", чтобы получить типичные значения веса профиля на случайных последовательностях:
pfsearch -C0.0 -f my.prf shuffled.fasta | sort -n > scores.txtи затем собственно нормировку профиля программой pfscale:
pfscale scores.txt my.prf > scaled.prfСравните содержимое файлов с исходным и нормированным профилями – что изменилось?
pfsearch -C1.0 -f my.prf bacteria.fasta > my.pfsearchЗдесь -f показывает, что банк имеет формат fasta, а -C1.0 (именно так, без пробела и с обязательной десятичной точкой!) – что мы просим выдать все находки с нормализованным весом более 1 (этот порог заведомо заниженный; если находок очень много, имеет смысл его повысить).
Если же вы проводили нормировку профиля (предыдущий пункт), то сразу
имеет смысл поставить порог, равный 6, то есть