Information theoretical approaches for the identification of potentially cooperating transcription factors

Meckbach, Cornelia

dc.contributor.advisor	Wingender, Edgar Prof. Dr.
dc.contributor.author	Meckbach, Cornelia
dc.date.accessioned	2019-08-08T08:58:17Z
dc.date.available	2019-08-08T08:58:17Z
dc.date.issued	2019-08-08
dc.identifier.uri	http://hdl.handle.net/21.11130/00-1735-0000-0003-C18A-7
dc.identifier.uri	http://dx.doi.org/10.53846/goediss-7595
dc.identifier.uri	http://dx.doi.org/10.53846/goediss-7595
dc.language.iso	eng	de
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.ddc	510	de
dc.title	Information theoretical approaches for the identification of potentially cooperating transcription factors	de
dc.type	doctoralThesis	de
dc.contributor.referee	Wingender, Edgar Prof. Dr.
dc.date.examination	2019-06-21
dc.description.abstractger	Transkriptionsfaktoren (TFs) sind eine spezielle Gruppe von Proteinen, die an regulatorische DNA Regionen wie Promotoren oder Enhancer binden, um die Expression ihrer Zielgene zu kontrollieren. Heutzutage ist hinlänglich bekannt, dass in höher entwickelten Organismen das kombinatorische Zusammenspiel von TFs unerlässlich für eine flexible und präzise Genregulation ist. Dabei ist die Kooperation von TFs sehr divers und kann zwischen TFs stattfinden, die an die gleiche DNA-Region gebunden sind, im Folgenden intraregionale TF Kooperationen genannt, sowie zwischen TFs, die an unterschiedliche DNA-Regionen gebunden sind (z.B. Enhancer- und Promotorregionen), im Folgenden interregionale TF-Kooperationen genannt. Die computergestützte Identifizierung dieser TF-Kooperationen ist nach wie vor ein herausforderndes Problem in der Bioinformatik und kann dadurch adressiert werden, dass vorhergesagte Transkriptionsfaktorbindestellen (TFBSs) im Hinblick auf ihr gemeinsames Auftreten analysiert. In dieser Arbeit präsentiere ich zwei informationstheoretische Verfahren für die Identifikation von kooperierenden TFs basierend auf deren TFBSs-Verteilungen in regulatorischen DNA-Regionen. Mein erstes Verfahren identifiziert potenzielle intraregionale TF-Kooperationen basierend auf dem gemeinsamen Vorkommen ihrer Bindestellen. Dabei habe ich die pointwise mutual information aus der Linguistik für die Bioinformatik angepasst, um gemeinsam vorkommende TFBSs vorherzusagen. Hierfür betrachte ich das Genom als ein Dokument, die zu analysierenden Sequenzen als Sätze und die vorhergesagten TFBSs als Wörter in diesen Sätzen. Ich habe das Verfahren erfolgreich auf einen simulierten Datensatz und auf biologische Datensätze angewendet und eine Vergleichsstudie mit bereits existierenden Methoden durchgeführt. Obwohl die Ergebnisse zeigen, dass meine Methode bereits bekannte und neue TF-Kooperationen erfolgreich identifiziert, fehlt die Unterscheidung zwischen solchen Paarungen, die für den jeweils untersuchten Sequenz-Set spezifisch sind, und solchen, die allgemein wichtig sind und daher stets in Erscheinung treten. Um diesen Punkt zu berücksichtigen, erweiterte ich die Methode und erzeugte Hintergrundsequenzsets um die Hintergrundcolokalisation für jede TFBS-Paarung abzuschätzen und dieses in meine Berechnung zu integrieren, um somit die signifikanten Paarungen als Sequenz-Set-spezifisch oder allgemein wichtig zu klassifizieren. Die Anwendung dieser erweiterten Methode auf unterschiedlichen Gensets zeigt, dass die Überlappung zwischen Sequenz-Set spezifischen Paarungen wesentlich geringer ist im Vergleich zu der originalen Methode. Mit dem Ziel, die erste Methode zu komplementieren wurde ein zweites Verfahren entwickelt, dass interregionale TF Beziehungen ermitteln soll, welche möglicherweise in den Interaktionsprozess zwischen Enhancer– und Promotorregionen involviert sind. Dieses Verfahren basiert auf den Sequenzen von bekannten Promoter–Enhancerinteraktionen und schätzt die Assoziation zwischen TFBS Verteilungen unterschiedlicher DNA-Regionen mittels der multivariate mutual information (MMI) ab. Dabei werden Hintergrundsequenzen erzeugt, bei denen die (Oligo-)Nukleotidzusammensetzung erhalten bleibt und die direkt als dritte Zufallsvariable in die MMI-Berechnung mit eingefügt werden. Für dieses Verfahren habe ich die Performance von vier unterschiedlichen MMI-Metriken miteinander verglichen. Abschließend demonstrierte ich die Leistung dieses Verfahrens, indem ich es erfolgreich auf simulierte sowie auf biologische Datensätze angewendet habe und mit einer bereits existierenden Methode verglichen habe.	de
dc.description.abstracteng	Transcription factors (TFs) are a special class of proteins that usually bind regulatory DNA regions such as promoters and enhancers in order to control the expression of their target genes. Today, it is well known that in higher organisms, the combinatorial interplay between TFs is crucial for a flexible and precise gene regulation. Thereby, the cooperation between TFs is highly diverse and can take place between TFs that are bound to the same DNA region, referring to intra-regional TF cooperations as well as between TFs that are bound to different DNA regions (i.e. enhancer and promoter regions), referring to inter-regional TF cooperations. The computational identification of these TF cooperations is still a challenging problem in bioinformatics and can be addressed by using predicted transcription factor binding sites (TFBSs) as basis of the analysis. In this thesis, I present two information theoretical approaches for the identification of cooperating TFs based on their TFBS distributions in regulatory DNA regions. My first approach identifies potentially intra-regional cooperating TFs based on the co-occurrence of their binding sites. Thereby, I adapted the pointwise mutual information from the field of linguistics to the field of bioinformatics by using it for the identification of co-occurring TFBSs. For this, I consider the genome as a document, the sequences under study as sentences and the predicted TFBSs as words in these sentences. I successfully applied this approach to a simulation data set, biological data sets and performed a comparison study with existing methods. Although the results reveal that my approach properly identifies known and novel TF cooperations, the differentiation between sequence-set specific pairs and common/general important ones is missing. Addressing this point, I extended my method and created background sequence-sets to estimate the background co-occurrence of each TFBS pair, incorporated it in the calculation and classified the significant pairs as sequence-set specific or common ones. Applying this extended version to several gene sets, the overlap between the sequence-set specific pairs is considerably decreased in comparison to the original version. In order to complement my first method, I established a second approach for the determination of inter-regional TF associations that might be involved in the interaction process between promoter and enhancer regions. This approach is based on the sequences of known promoter-enhancer interactions and estimates the association between TFBS distributions of different DNA regions based on multivariate mutual information (MMI). Thereby, I created background sequence sets by preserving the (olig-) nucleotide composition and directly incorporated them in the MMI computation as a third random variable. Considering this approach, I compared the performance of four different mutual information quantities. Finally, I demonstrated the performance of this approach by successfully applying it to simulation and biological data sets and by comparing it with an existing method.	de
dc.contributor.coReferee	Waack, Stephan Prof. Dr.
dc.contributor.thirdReferee	Hofestädt, Ralf Prof. Dr.
dc.subject.eng	transcription factor	de
dc.subject.eng	transcription factor cooperation	de
dc.subject.eng	information theory	de
dc.subject.eng	mutual information	de
dc.subject.eng	gene expression regulation	de
dc.identifier.urn	urn:nbn:de:gbv:7-21.11130/00-1735-0000-0003-C18A-7-9
dc.affiliation.institute	Fakultät für Mathematik und Informatik	de
dc.subject.gokfull	Informatik (PPN619939052)	de
dc.identifier.ppn	1672307287

Dateien

Name:CorneliaMeckbachOhneCV.pdf

Größe:19.60Mb

Format:PDF

Öffnen

Name:: CorneliaMeckbachOhneCV.pdf
Größe:: 19.60Mb
Format:: PDF

Öffnen

Das Dokument erscheint in:

Fakultät für Mathematik und Informatik (inkl. GAUSS) [519]

Zur Kurzanzeige