Sub-network Analysis and Scoring Sy

Download 9.45 Kb.

Hajmi9.45 Kb.
background image


SASSySub-network Analysis and Scoring System 

Synopsis: Enthusiasm for systems biology approaches to the study of complex diseases (e.g. cancer) has grown rapidly 

over  the past  decade. Over  the same  time  genome-wide,  high-throughput experiments (e.g., microarray, RNASeq, etc.) 

directed at the study of these diseases have generated a vast amount of data. In addition, multiple databases now exist to 

catalog  evidence  of  protein-protein  interactions  (networks)  based  on  high-  and  low-throughput  experiments.  Taken 

together, these data sources provide a rich resource for the study of polygenic diseases. One computational challenge is 

to integrate these disparate data to identify and prioritize combinations of proteins (sub-networks) to guide the biological 

effort  of  validating  their  role  in  the  disease  phenotype.  To  meet  this  computational  challenge  we  have  developed  and 

implemented  an  algorithm,  SASSy  (Sub-network  Analysis  and  Scoring  System),  to  detect  and  score  dysregulated  sub-

networks in disease [1].


SASSy  is  presently  implemented  as  a  web-based  program  that  uses  genome-wide  expression  data  (e.g.,  microarray) 

obtained  in  test  and  control  samples  to  score  any  candidate  protein-protein  interaction  (PPI)  sub-network.  The  sub-

network  may  contain  dozens  or  even  hundreds  of  proteins.  SASSy  uses  an  information  theoretic  approach  (mutual 

information, MI) to exhaustively search the sub-network for combination(s) of n (user selected) proteins that maximize MI. 

Here,  changes  between  test  and  control  at  the  level  of  transcription  are  used  as  a  proxy  measure  for  differential  sub-

network  activity.  The  output  of  SASSy  is  a  pruned  version  of  the  input  sub-network,  composed  of  the  proteins  most 

discriminative  of  disease  and  control.  Additionally,  SASSy  implements  two  separate  hypothesis  tests,  each  of  which 

computes  a confidence  value  of  the associated pruned  sub-network.  One  test  (H1)  is  based  on  a  null  distribution  of MI 

obtained from ten thousand random combinations of n-proteins, the other (H2) is a conventional permutation test. 



A candidate sub-network for each sample 

(control and test) is “painted” with 

associated gene expression data from 

microarray. These values are aggregated 

and binned. Scoring is performed by 

computing the mutual information (MI) 

between test and control. This involves 

exhaustively searching the entire 

candidate sub-network for n-proteins that 

maximize MI (black nodes). Grey nodes 

are inferred to be important by topology. 

Statistical significance is evaluated by two 

separate hypothesis tests. 

Do'stlaringiz bilan baham:

Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan © 2017
ma'muriyatiga murojaat qiling