allpy: lib/block.py annotate

allpy

annotate lib/block.py @ 146:8f1d8ece31af

lib: superimpose comleted, pdb_save in progress...

author	boris <bnagaev@gmail.com>
date	Sun, 24 Oct 2010 22:25:36 +0400
parents	a0ff92b78b6a
children	db9d116e979f

rev	line source
BurkovBA@0	1 #!usr/bin/python
BurkovBA@0	2
BurkovBA@0	3 import sys
BurkovBA@0	4
BurkovBA@0	5 import project
BurkovBA@0	6 import sequence
BurkovBA@0	7 import monomer
bnagaev@116	8 import config
bnagaev@121	9 from graph import Graph
bnagaev@146	10 from Bio.PDB import Superimposer
BurkovBA@0	11
BurkovBA@0	12 class Block(object):
BurkovBA@0	13 """
BurkovBA@0	14 Mandatory data:
BurkovBA@0	15 * self.project -- project object, which the block belongs to
BurkovBA@1	16 * self.sequences - set of sequence objects that contain monomers
BurkovBA@0	17 and/or gaps, that constitute the block
bnagaev@115	18 * self.positions -- sorted list of positions of the project.alignment that
BurkovBA@1	19 are included in the block
bnagaev@116	20
bnagaev@132	21 Don't change self.sequences -- it may be a link to other block.sequences
bnagaev@132	22
BurkovBA@0	23 How to create a new block:
BurkovBA@0	24 >>> import project
BurkovBA@0	25 >>> import block
BurkovBA@0	26 >>> proj = project.Project(open("test.fasta"))
bnagaev@114	27 >>> block1 = block.Block(proj)
BurkovBA@0	28 """
BurkovBA@0	29
bnagaev@112	30 def __init__(self, project, sequences=None, positions=None):
bnagaev@112	31 """
bnagaev@112	32 Builds new block from project
bnagaev@112	33 if sequences==None, all sequences are used
bnagaev@112	34 if positions==None, all positions are used
bnagaev@112	35 """
bnagaev@112	36 if sequences == None:
bnagaev@132	37 sequences = set(project.sequences) # copy
bnagaev@112	38 if positions == None:
bnagaev@112	39 positions = range(len(project))
BurkovBA@73	40 self.project = project
BurkovBA@73	41 self.sequences = sequences
BurkovBA@73	42 self.positions = positions
bnagaev@146	43
bnagaev@137	44 def save_fasta(self, out_file, long_line=60, gap='-'):
bnagaev@112	45 """
bnagaev@112	46 Saves alignment to given file in fasta-format
bnagaev@112	47 Splits long lines to substrings of length=long_line
bnagaev@112	48 To prevent this, set long_line=None
bnagaev@112	49
BurkovBA@0	50 No changes in the names, descriptions or order of the sequences
BurkovBA@0	51 are made.
BurkovBA@0	52 """
BurkovBA@0	53 for sequence in self.sequences:
bnagaev@112	54 out_file.write(">%(name)s %(description)s \n" % sequence.__dict__)
bnagaev@113	55 alignment_monomers = self.project.alignment[sequence]
bnagaev@115	56 block_monomers = [alignment_monomers[i] for i in self.positions]
bnagaev@113	57 string = ''.join([m.type.code1 if m else '-' for m in block_monomers])
bnagaev@112	58 if long_line:
bnagaev@112	59 for i in range(0, len(string) // long_line + 1):
bnagaev@112	60 out_file.write("%s \n" % string[ilong_line : ilong_line + long_line])
bnagaev@112	61 else:
bnagaev@112	62 out_file.write("%s \n" % string)
bnagaev@116	63
bnagaev@127	64 def geometrical_cores(self, max_delta=config.delta,
bnagaev@129	65 timeout=config.timeout, minsize=config.minsize,
bnagaev@129	66 ac_new_atoms=config.ac_new_atoms,
bnagaev@129	67 ac_count=config.ac_count):
bnagaev@116	68 """
bnagaev@129	69 returns length-sorted list of blocks, representing GCs
bnagaev@126	70
bnagaev@129	71 max_delta -- threshold of distance spreading
bnagaev@129	72 timeout -- Bron-Kerbosh timeout (then fast O(n ln n) algorithm)
bnagaev@129	73 minsize -- min size of each core
bnagaev@129	74 ac_new_atoms -- min part or new atoms in new alternative core
bnagaev@129	75 current GC is compared with each of already selected GCs
bnagaev@129	76 if difference is less then ac_new_atoms, current GC is skipped
bnagaev@129	77 difference = part of new atoms in current core
bnagaev@129	78 ac_count -- max number of cores (including main core)
bnagaev@130	79 -1 means infinity
bnagaev@120	80 If more than one pdb chain for some sequence provided, consider all of them
bnagaev@120	81 cost is calculated as 1 / (delta + 1)
bnagaev@120	82 delta in [0, +inf) => cost in (0, 1]
bnagaev@116	83 """
bnagaev@117	84 nodes = self.positions
bnagaev@117	85 lines = {}
bnagaev@116	86 for i in self.positions:
bnagaev@116	87 for j in self.positions:
bnagaev@117	88 if i < j:
bnagaev@120	89 distances = []
bnagaev@120	90 for sequence in self.sequences:
bnagaev@120	91 for chain in sequence.pdb_chains:
bnagaev@120	92 m1 = self.project.alignment[sequence][i]
bnagaev@120	93 m2 = self.project.alignment[sequence][j]
bnagaev@122	94 if m1 and m2:
bnagaev@122	95 ca1 = m1.pdb_residues[chain]['CA']
bnagaev@122	96 ca2 = m2.pdb_residues[chain]['CA']
bnagaev@122	97 d = ca1 - ca2 # Bio.PDB feature
bnagaev@122	98 distances.append(d)
bnagaev@122	99 if len(distances) >= 2:
bnagaev@122	100 delta = max(distances) - min(distances)
bnagaev@122	101 if delta <= max_delta:
bnagaev@122	102 lines[Graph.line(i, j)] = 1.0 / (1.0 + max_delta)
bnagaev@120	103 graph = Graph(nodes, lines)
bnagaev@129	104 cliques = graph.cliques(timeout=timeout, minsize=minsize)
bnagaev@129	105 GCs = []
bnagaev@129	106 for clique in cliques:
bnagaev@129	107 for GC in GCs:
bnagaev@129	108 if len(clique - set(GC.positions)) < ac_new_atoms * len(clique):
bnagaev@129	109 break
bnagaev@129	110 else:
bnagaev@132	111 GCs.append(Block(self.project, self.sequences, clique))
bnagaev@130	112 if ac_count != -1 and len(GCs) >= ac_count:
bnagaev@129	113 break
bnagaev@129	114 return GCs
bnagaev@123	115
bnagaev@137	116 def xstring(self, x='X', gap='-'):
bnagaev@123	117 """
bnagaev@137	118 Returns string consisting of gap chars and chars x at self.positions
bnagaev@123	119 Length of returning string = length of project
bnagaev@123	120 """
bnagaev@123	121 monomers = [False] * len(self.project)
bnagaev@123	122 for i in self.positions:
bnagaev@123	123 monomers[i] = True
bnagaev@137	124 return ''.join([x if m else gap for m in monomers])
bnagaev@134	125
bnagaev@137	126 def save_xstring(self, out_file, name, description='', x='X', gap='-'):
bnagaev@134	127 """
bnagaev@134	128 Save xstring and name in fasta format
bnagaev@134	129 """
bnagaev@134	130 out_file.write(">%(name)s %(description)s \n" % \
bnagaev@134	131 {'name':name, 'description':description})
bnagaev@134	132
bnagaev@142	133 out_file.write("%(xstring)s \n" % {'xstring':self.xstring(x=x, gap=gap)})
bnagaev@146	134
bnagaev@146	135 def monomers(self, sequence):
bnagaev@146	136 """ Iterates monomers of this sequence from this block """
bnagaev@146	137 alignment_sequence = self.project.alignment[sequence]
bnagaev@146	138 return (alignment_sequence[i] for i in self.positions)
bnagaev@146	139
bnagaev@146	140 def ca_atoms(self, sequence, pdb_chain):
bnagaev@146	141 """ Iterates Ca-atom of monomers of this sequence from this block """
bnagaev@146	142 return (monomer.pdb_residues[pdb_chain] for monomer in self.monomers())
bnagaev@146	143
bnagaev@146	144 def sequences_chains(self):
bnagaev@146	145 """ Iterates pairs (sequence, chain) """
bnagaev@146	146 for sequence in self.sequences:
bnagaev@146	147 for chain in sequence.pdb_chains:
bnagaev@146	148 yield (sequence, chain)
bnagaev@146	149
bnagaev@146	150 def superimpose(self):
bnagaev@146	151 """ Superimpose all pdb_chains in this block """
bnagaev@146	152 sequences_chains = []
bnagaev@146	153 if len(self.sequences) >= 1:
bnagaev@146	154 sup = Superimposer()
bnagaev@146	155 fixed_sequence, fixed_chain = sequences_chains.pop()
bnagaev@146	156 fixed_atoms = self.ca_atoms(fixed_sequence, fixed_chain)
bnagaev@146	157 for sequence, chain in sequences_chains:
bnagaev@146	158 moving_atoms = self.ca_atoms(sequence, chain)
bnagaev@146	159 sup.set_atoms(fixed_atoms, moving_atoms)
bnagaev@146	160 # Apply rotation/translation to the moving atoms
bnagaev@146	161 sup.apply(moving_atoms)
bnagaev@146	162
bnagaev@146	163 def pdb_save(self, out_file):
bnagaev@146	164 """ Superimpose all pdb_chains in this block """
bnagaev@146	165 tmp_file, tmp_filename = mkstemp()
bnagaev@146	166 os.close(tmp_file) # this is file descriptor, not normal file object.
bnagaev@146	167 sequence.pdb_save(tmp_filename, chain)
bnagaev@146	168
bnagaev@146	169
bnagaev@146	170