Analyzing transcription mechanisms in the PPARG locus by constructing protein interaction graphs from proteomics and binding motif data

Abstract

Genome wide association studies have determined various risk loci for many diseases, including type 2 diabetes. Our approach combins data from a quantitative allele specific proteomics experiment with other data sources in order to gain a better understanding of disease patophysiology. The experiment measured protein binding to both alleles of different single nucleotide polymorphisms (SNPs), including rs4684847 and rs7647481. These two variations, located on non-coding DNA, have previously been shown to affect PPARG expression, a protein associated with insulin sensitivity. In our work, the transcriptorial activity at those loci was analyzed by combining the proteomics data with transcription factor binding scores generated from the sequences surrounding the variations and a binding profile database. In addition to that, a protein protein interaction database was used. The data were used to construct protein interaction networks in order to gain a visual understanding of the regulatory processes in the locus. Analysis was rendered difficult by the fact that there were few proteins for which data from all data sources was available. Nevertheless, the visualizations provided further evidence that the transcription factor YY1 binds differentially. Since a strong association between YY1 and insulin sensitivity has already been shown, our results provide further evidence that the locus is relevant to the patophysiology of type 2 diabetes. Our results also indicate that binding of the PPARG repressor PRRX1 to DNA is dependant on not only the sequence itself, but also on cofactors.

Zusammenfassung

Genomweite Assoziationsstudien haben viele Risikoloci für verschiedene Krankheiten identifiziert, darunter auch für Typ 2 Diabetes. Der in dieser Arbeit beschriebene Ansatz verbindet Daten, die durch ein quantitatives, allelspezifisches Proteomics-Experiment gewonnen wurden, mit anderen Datenquellen um die Patophysiologie der Krankheit besser zu verstehen. Mit Hilfe des Experimentes wurde die Proteinbindung an beide Allele verschiedener Varianten quantifiziert, so auch an die Varianten rs4684847 und rs7647481. Diese befinden sich auf nichtkodierender DNA und beeinflussen nachweislich die Exprimierung von PPARG, einem mit Insulinsensitivität assoziierten Protein. Die transkriptionelle Aktivität an diesen Loci wurde, durch das Verbinden der Proteomics-Daten mit Binde-Scores, die, mit Hilfe von Bindemotifdatenbanken, aus den, die Variationen umgebenden, Sequenzen generiert wurden, analyziert. Desweiteren wurde eine Proteininteraktionsdatenbank verwendet. Aus diesen drei Datenquellen wurden Proteininteraktionsnetzwerke erstellt, welche zum Gewinnen eines visuellen Verständnisses über die regulatorischen Prozesse im Locus verwendet wurden. Die Analyze wurde dadurch erschwert, dass nur für wenige Proteine Informationen aus allen Datenquellen vorhanden waren. Trotzdem lieferten die Visualisierungen weitere Hinweise darauf, dass der Transkriptionsfaktor YY1 differenziell bindet. Da YY1 stark mit Insulinsensitivität assoziioert wurde, verdeutlichen unsere Ergebnisse die Relevanz des Locus für Typ 2 Diabetes. Ebenfalls wurden Hinweise darauf gefunden, dass die Bindeung des PPARGRepressors PRRX1 and DNA nicht nur von der Sequenz selbst, sondern auch von Kofaktoren abhängig ist.

Forschungsarbeit von Olaf Czarnecki