allpy: lib/block.py annotate

allpy

annotate lib/block.py @ 151:675b402094be

day commit -- a lot of changes fasta.py: universal save_fasta() determine_long_line -- for determine length of fasta sequence string in user input everywhere: standart long_line=60 --> 70 blocK.sequences_chains: returns sequences in order as in project added monomer pdb_secstr to store secondary structure pdb adding: some improvements and fixes fix in from_pdb_chain: use all peptides, not only first Sequence.pdb_files added to store information about pdb file for each chain dssp bindings to get secondary structure /sec_str -- tool to map secondary structure on each sequence of alignment

author	boris (netbook) <bnagaev@gmail.com>
date	Tue, 26 Oct 2010 00:40:36 +0400
parents	f7dead025719
children	0c7f6117481b

rev	line source
BurkovBA@0	1 #!usr/bin/python
BurkovBA@0	2
BurkovBA@0	3 import sys
BurkovBA@0	4
BurkovBA@0	5 import project
BurkovBA@0	6 import sequence
BurkovBA@0	7 import monomer
bnagaev@116	8 import config
bnagaev@121	9 from graph import Graph
bnagaev@146	10 from Bio.PDB import Superimposer
bnagaev@149	11 from tempfile import NamedTemporaryFile
bnagaev@149	12 import os
bnagaev@151	13 from fasta import save_fasta
BurkovBA@0	14
BurkovBA@0	15 class Block(object):
bnagaev@147	16 """ Block of alignment
bnagaev@147	17
BurkovBA@0	18 Mandatory data:
BurkovBA@0	19 * self.project -- project object, which the block belongs to
BurkovBA@1	20 * self.sequences - set of sequence objects that contain monomers
BurkovBA@0	21 and/or gaps, that constitute the block
bnagaev@115	22 * self.positions -- sorted list of positions of the project.alignment that
BurkovBA@1	23 are included in the block
bnagaev@116	24
bnagaev@132	25 Don't change self.sequences -- it may be a link to other block.sequences
bnagaev@132	26
BurkovBA@0	27 How to create a new block:
BurkovBA@0	28 >>> import project
BurkovBA@0	29 >>> import block
BurkovBA@0	30 >>> proj = project.Project(open("test.fasta"))
bnagaev@114	31 >>> block1 = block.Block(proj)
BurkovBA@0	32 """
BurkovBA@0	33
bnagaev@112	34 def __init__(self, project, sequences=None, positions=None):
bnagaev@147	35 """ Builds new block from project
bnagaev@147	36
bnagaev@112	37 if sequences==None, all sequences are used
bnagaev@112	38 if positions==None, all positions are used
bnagaev@112	39 """
bnagaev@112	40 if sequences == None:
bnagaev@132	41 sequences = set(project.sequences) # copy
bnagaev@112	42 if positions == None:
bnagaev@112	43 positions = range(len(project))
BurkovBA@73	44 self.project = project
BurkovBA@73	45 self.sequences = sequences
BurkovBA@73	46 self.positions = positions
bnagaev@146	47
bnagaev@151	48 def save_fasta(self, out_file, long_line=70, gap='-'):
bnagaev@148	49 """ Saves alignment to given file in fasta-format
bnagaev@148	50
BurkovBA@0	51 No changes in the names, descriptions or order of the sequences
BurkovBA@0	52 are made.
BurkovBA@0	53 """
BurkovBA@0	54 for sequence in self.sequences:
bnagaev@113	55 alignment_monomers = self.project.alignment[sequence]
bnagaev@115	56 block_monomers = [alignment_monomers[i] for i in self.positions]
bnagaev@113	57 string = ''.join([m.type.code1 if m else '-' for m in block_monomers])
bnagaev@151	58 save_fasta(out_file, string, sequence.name, sequence.description, long_line)
bnagaev@116	59
bnagaev@127	60 def geometrical_cores(self, max_delta=config.delta,
bnagaev@129	61 timeout=config.timeout, minsize=config.minsize,
bnagaev@129	62 ac_new_atoms=config.ac_new_atoms,
bnagaev@129	63 ac_count=config.ac_count):
bnagaev@150	64 """ Returns length-sorted list of blocks, representing GCs
bnagaev@126	65
bnagaev@129	66 max_delta -- threshold of distance spreading
bnagaev@129	67 timeout -- Bron-Kerbosh timeout (then fast O(n ln n) algorithm)
bnagaev@129	68 minsize -- min size of each core
bnagaev@129	69 ac_new_atoms -- min part or new atoms in new alternative core
bnagaev@129	70 current GC is compared with each of already selected GCs
bnagaev@129	71 if difference is less then ac_new_atoms, current GC is skipped
bnagaev@129	72 difference = part of new atoms in current core
bnagaev@129	73 ac_count -- max number of cores (including main core)
bnagaev@130	74 -1 means infinity
bnagaev@120	75 If more than one pdb chain for some sequence provided, consider all of them
bnagaev@120	76 cost is calculated as 1 / (delta + 1)
bnagaev@120	77 delta in [0, +inf) => cost in (0, 1]
bnagaev@116	78 """
bnagaev@117	79 nodes = self.positions
bnagaev@117	80 lines = {}
bnagaev@116	81 for i in self.positions:
bnagaev@116	82 for j in self.positions:
bnagaev@117	83 if i < j:
bnagaev@120	84 distances = []
bnagaev@120	85 for sequence in self.sequences:
bnagaev@120	86 for chain in sequence.pdb_chains:
bnagaev@120	87 m1 = self.project.alignment[sequence][i]
bnagaev@120	88 m2 = self.project.alignment[sequence][j]
bnagaev@122	89 if m1 and m2:
bnagaev@122	90 ca1 = m1.pdb_residues[chain]['CA']
bnagaev@122	91 ca2 = m2.pdb_residues[chain]['CA']
bnagaev@122	92 d = ca1 - ca2 # Bio.PDB feature
bnagaev@122	93 distances.append(d)
bnagaev@122	94 if len(distances) >= 2:
bnagaev@122	95 delta = max(distances) - min(distances)
bnagaev@122	96 if delta <= max_delta:
bnagaev@122	97 lines[Graph.line(i, j)] = 1.0 / (1.0 + max_delta)
bnagaev@120	98 graph = Graph(nodes, lines)
bnagaev@129	99 cliques = graph.cliques(timeout=timeout, minsize=minsize)
bnagaev@129	100 GCs = []
bnagaev@129	101 for clique in cliques:
bnagaev@129	102 for GC in GCs:
bnagaev@129	103 if len(clique - set(GC.positions)) < ac_new_atoms * len(clique):
bnagaev@129	104 break
bnagaev@129	105 else:
bnagaev@132	106 GCs.append(Block(self.project, self.sequences, clique))
bnagaev@130	107 if ac_count != -1 and len(GCs) >= ac_count:
bnagaev@129	108 break
bnagaev@129	109 return GCs
bnagaev@123	110
bnagaev@137	111 def xstring(self, x='X', gap='-'):
bnagaev@148	112 """ Returns string consisting of gap chars and chars x at self.positions
bnagaev@148	113
bnagaev@123	114 Length of returning string = length of project
bnagaev@123	115 """
bnagaev@123	116 monomers = [False] * len(self.project)
bnagaev@123	117 for i in self.positions:
bnagaev@123	118 monomers[i] = True
bnagaev@137	119 return ''.join([x if m else gap for m in monomers])
bnagaev@134	120
bnagaev@151	121 def save_xstring(self, out_file, name, description='', x='X', gap='-', long_line=70):
bnagaev@148	122 """ Save xstring and name in fasta format """
bnagaev@151	123 save_fasta(out_file, self.xstring(x=x, gap=gap), name, description, long_line)
bnagaev@146	124
bnagaev@146	125 def monomers(self, sequence):
bnagaev@146	126 """ Iterates monomers of this sequence from this block """
bnagaev@146	127 alignment_sequence = self.project.alignment[sequence]
bnagaev@146	128 return (alignment_sequence[i] for i in self.positions)
bnagaev@146	129
bnagaev@146	130 def ca_atoms(self, sequence, pdb_chain):
bnagaev@146	131 """ Iterates Ca-atom of monomers of this sequence from this block """
bnagaev@146	132 return (monomer.pdb_residues[pdb_chain] for monomer in self.monomers())
bnagaev@146	133
bnagaev@146	134 def sequences_chains(self):
bnagaev@146	135 """ Iterates pairs (sequence, chain) """
bnagaev@151	136 for sequence in self.project.sequences:
bnagaev@151	137 if sequence in self.sequences:
bnagaev@151	138 for chain in sequence.pdb_chains:
bnagaev@151	139 yield (sequence, chain)
bnagaev@146	140
bnagaev@146	141 def superimpose(self):
bnagaev@146	142 """ Superimpose all pdb_chains in this block """
bnagaev@149	143 sequences_chains = list(self.sequences_chains())
bnagaev@149	144 if len(sequences_chains) >= 1:
bnagaev@146	145 sup = Superimposer()
bnagaev@146	146 fixed_sequence, fixed_chain = sequences_chains.pop()
bnagaev@146	147 fixed_atoms = self.ca_atoms(fixed_sequence, fixed_chain)
bnagaev@146	148 for sequence, chain in sequences_chains:
bnagaev@146	149 moving_atoms = self.ca_atoms(sequence, chain)
bnagaev@146	150 sup.set_atoms(fixed_atoms, moving_atoms)
bnagaev@146	151 # Apply rotation/translation to the moving atoms
bnagaev@146	152 sup.apply(moving_atoms)
bnagaev@146	153
bnagaev@146	154 def pdb_save(self, out_file):
bnagaev@149	155 """ Save all sequences
bnagaev@149	156
bnagaev@149	157 Returns {(sequence, chain): CHAIN}
bnagaev@149	158 CHAIN is chain letter in new file
bnagaev@149	159 """
bnagaev@149	160 tmp_file = NamedTemporaryFile(delete=False)
bnagaev@149	161 tmp_file.close()
bnagaev@149	162
bnagaev@149	163 for sequence, chain in self.sequences_chains():
bnagaev@149	164 sequence.pdb_save(tmp_file.name, chain)
bnagaev@149	165 # TODO: read from tmp_file.name
bnagaev@149	166 # change CHAIN
bnagaev@149	167 # add to out_file
bnagaev@149	168
bnagaev@149	169 os.unlink(NamedTemporaryFile)
bnagaev@146	170