Zur Kurzanzeige

Evaluierung des phylogenetischen Footprintings und dessen Anwendung zur verbesserten Vorhersage von Transkriptionsfaktor-Bindestellen

dc.contributor.advisorWaack, Stephan Prof. Dr.de
dc.contributor.authorSauer, Tilmande
dc.date.accessioned2006-10-27T15:26:56Zde
dc.date.accessioned2013-01-18T13:24:57Zde
dc.date.available2013-01-30T23:50:56Zde
dc.date.issued2006-10-27de
dc.identifier.urihttp://hdl.handle.net/11858/00-1735-0000-0006-B383-8de
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-2587
dc.description.abstractDas Humangenom besitzt zwischen 20000 und 25000 Gene, die für Proteine codieren, und RNA-Gene unterschiedlicher Funktion, aber ungefähr 95% des Humangenoms werden vermutlich nicht transkribiert. In diesem Sequenzanteil liegen die Informationen zur Strukturorganisation und Transkriptionsregulation des Genoms verborgen. Möchte man die Genregulation verstehen und modellieren können, benötigt man zuallererst die Kenntnis über die Lokalisationen von regulatorischen Elementen. Bestimmte Proteine, die sogenannten Transkriptionsfaktoren (TFs), binden an solche regulatorische Elemente, die daher auch Transkriptionsfaktor-Bindestellen (TFBSs) genannt werden, und beeinflussen die Effizienz der Transkription des regulierten Gens. TFBSs können mit verschiedenen Methoden experimentell identifziert werden, wobei diese jedoch zeit- und kostenintensiv sind. Eine andere Möglichkeit zur Bestimmung von TFBSs sind bioinformatische Methoden. Regulatorische Elemente sind allerdings kurz und degeneriert, daher ist die Chance, dass ein bestimmtes Sequenzmuster zufällig gefunden wird, relativ hoch, was die zuverlässige bioinformatische Detektion von TFBSs erschwert. Um das Signal-zu-Rausch-Verhältnis bei dieser Suche zu verbessern, wird häufig die Sequenz-Konserviertheit zwischen orthologen nicht-codierenden Sequenzen zweier oder mehrerer Spezies genutzt. Dieses sogenannte Phylogenetische Footprinting basiert auf der Annahme, dass funktionelle Bereiche in nicht-codierenden Sequenzen einem höheren evolutionären Druck unterliegen als nicht funktionelle Bereiche und sich daher in einem Alignment durch eine erhöhte Konserviertheit auszeichnen.Im Rahmen dieser Arbeit wurde der Ansatz des phylogenetischen Footprintings evaluiert. Dazu wurde untersucht, inwiefern experimentell verifizierte TFBSs durch Sequenzvergleiche zwischen Mensch und Maus, Ratte, Hund sowie Kuh detektiert werden können, um den Ansatz zu kalibrieren und einzuschätzen. Für den Erfolg des phylogenetischen Footprintings ist die Sicherstellung der orthologen Beziehung zwischen den zu vergleichenden Sequenzen entscheidend. Dazu wurde ein Verfahren zur Identifizierung orthologer Sequenzen entwickelt, das unabhängig von einer möglicherweise inkorrekten Annotation der Genstruktur ist, indem orthologe Sequenzen durch die Suche nach Sequenzhomologien in der Umgebung annotierter orthologer Gene lokalisiert werden. Weiterhin wurde ein Konserviertheitskriterium bestimmt, welches eine optimale Diskrimination zwischen bekannten TFBSs und Sequenzen, die keine oder keine bekannte Funktion tragen, liefert. Die Wahl des Alignment-Algorithmus hatte nur einen marginalen Einfluss auf die erhaltenen Ergebnisse, da Mensch- und Nagetier-Sequenzen eine genügend hohe Ähnlichkeit aufweisen, sodass die meisten Alignment-Programme ähnliche Ergebnisse produzieren. Die Sequenz-Konserviertheit von TFBSs zeigt spezifische Unterschiede und variiert stark in Abhängigkeit vom zugehörigen TF. Weiterhin sind die Nukleotide, die den größten Beitrag zur Spezifität einer bestimmten DNA-TF-Bindung leisten, meistens stärker konserviert als die übrigen Nukleotide einer TFBS. Deutliche Unterschiede in der Sequenz-Konserviertheit von TFBSs zeigen sich auch in Abhängigkeit von der Funktion des regulierten Gens. Generell erweisen sich paarweise Vergleiche zwischen Mensch und Maus oder Ratte denen zwischen Mensch und Hund oder Kuh zur Identifizierung von TFBSs als überlegen.Ein Ziel dieser Arbeit war, die Vorhersage von TFBSs mittels der aus Speziesvergleichen erhaltenen Informationen zu verbessern. Ein gängiges Verfahren basiert auf der Suche nach bestimmten Sequenzmustern mit sogenannten positions-spezifischen Scoring-Matrizen (PSSMs). Da die Informationen aus dem phylogenetischen Footprinting einen davon unabhängigen Hinweis auf die Existenz einer TFBS liefern, sollte die Kombination aus einer PSSM-basierten Vorhersage von TFBSs und phylogenetischem Footprinting die Anzahl falsch positiver Vorhersagen verringern. Im Rahmen dieser Arbeit wurde ein Hidden-Markov-Modell (HMM) entworfen, das diese zwei unabhängigen Methoden zur Vorhersage von TFBSs in einer synergistischen Weise kombiniert. Das HMM wurde entsprechend der gewonnenen Erkenntnisse über die unterschiedliche Konserviertheit der TFBSs bestimmter TFs parametrisiert. Auf den untersuchten Testdatensätzen machte das HMM exaktere Vorhersagen als eine rein PSSM-basierte Suche nach TFBSs. In bestimmten Fällen wurde im direkten Vergleich bei gleicher Sensitivität die Zahl falsch positiver Vorhersagen auf ein Viertel reduziert. Die möglichst korrekte Vorhersage von TFBSs mit dieser Methode liefert einen Grundstein für die Konstruktion genregulatorischer Netzwerke und damit auch für ein besseres Verständnis der Transkriptionsregulation innerhalb einer Zelle.de
dc.format.mimetypeapplication/pdfde
dc.language.isogerde
dc.rights.urihttp://webdoc.sub.gwdg.de/diss/copyr_diss.htmlde
dc.titleEvaluierung des phylogenetischen Footprintings und dessen Anwendung zur verbesserten Vorhersage von Transkriptionsfaktor-Bindestellende
dc.typedoctoralThesisde
dc.title.translatedEvaluation of phylogenetic footprinting and its application to an improved prediction of transcription factor binding sitesde
dc.contributor.refereeWaack, Stephan Prof. Dr.de
dc.date.examination2006-07-11de
dc.subject.dnb004 Informatikde
dc.description.abstractengThe human genome contains between 20000 and 25000 genes, which code for proteins, and RNA genes of different function, but approximately 95% of the human genome are presumably not transcribed. The information governing the structural organization and transcriptional regulation of the genome is hidden in this sequence fraction. To be able to understand and to model the gene regulation, first of all one needs to know the localizations of regulatory elements. Certain proteins, the so-called transcription factors (TFs), bind to such regulatory elements, which therefore are also called transcription factor binding sites (TFBSs), and affect the transcription efficiency of the regulated gene. TFBSs can be identified experimentally by different methods, but these are time-consuming and cost-intensive. Another possibility for the identification of TFBSs is the application of bioinformatic methods. However regulatory elements are short and degenerated, which increases the probability that a certain sequence pattern is found by chance and hampers the reliable bioinformatic detection of TFBSs. In order to improve the signal-to-noise ratio of this search, the sequence conservation between orthologous non-coding sequences of two or several species is frequently used. This so-called phylogenetic footprinting is based on the assumption that functional elements in non-coding regions are under a higher selective pressure during evolution than non-functional regions and therefore characterized by an increased conservation in a sequence alignment.In the context of this work the approach of phylogenetic footprinting has been evaluated. For this purpose it has been examined to what extent experimentally verified TFBSs can be detected by sequence comparisons between human and mouse, rat, dog as well as cow, in order to calibrate and assess the approach. For the success of phylogenetic footprinting it is crucial to ensure the orthologous relationship between the sequences compared. A procedure for the identification of orthologous sequences has been developed, which is independent of a potentially incorrect annotation of the gene structure, as orthologous sequences are located by a search for sequence homologies in the vicinity of annotated orthologous genes. Further a conservation criterion has been determined, which gives an optimal discrimination between known TFBSs and sequences, which hold no or no known function. The choice of the alignment algorithm has only a marginal influence on the obtained results, since human and rodent sequences exhibit a sufficiently high similarity, so that most alignment programs give similar results. The sequence conservation of TFBSs shows specific differences and varies strongly depending on the corresponding TF. Further the nucleotides, which have the highest contribution to the specificity of a certain DNA-TF interaction, are often higher conserved than the remaining nucleotides of a TFBS. Clear differences in the sequence conservation of TFBSs can also be seen in dependence of the function of the regulated gene. Generally pairwise sequence comparisons between human and mouse or rat prove to be superior to those between human and dog or cow for the identification TFBSs.A goal of this work has been to improve the prediction of TFBSs using the information obtained from species comparisons. A standard method to predict TFBSs is based on the search for certain sequence patterns with so-called position-specific scoring matrices (PSSMs). Since the information obtained by phylogenetic footprinting gives an independent evidence for the existence of a TFBS, the combination of a PSSM-based prediction of TFBSs and phylogenetic footprinting should reduce the number of false positive predictions. In the context of this work a Hidden Markov model (HMM) has been developed, which combines these two independent methods for the prediction of TFBSs in a synergistic way. The HMM has been parameterized according to the insights about the differing conservation of the TFBSs of certain TFs. On the investigated test data sets the HMM made more accurate predictions than a purely PSSM based search for TFBSs. In certain cases the number of false positive predictions was reduced to a fourth for a given sensitivity. The prediction of TFBSs with this highly accurate method supplies a foundation-stone for the construction of gene regulatory networks and so for a better understanding of the regulation of transcription within a cell.de
dc.contributor.coRefereeWingender, Edgar Prof. Dr.de
dc.subject.topicMathematics and Computer Sciencede
dc.subject.gerphylogenetisches Footprintingde
dc.subject.gerTranskriptionsfaktor-Bindestellende
dc.subject.gerHidden-Markov-Modellde
dc.subject.gervergleichende Genomikde
dc.subject.gerpositions-spezifische Scoring-Matrizende
dc.subject.engphylogenetic footprintingde
dc.subject.engtranscription factor binding sitesde
dc.subject.enghidden markov modelde
dc.subject.engcomparative genomicsde
dc.subject.engposition-specific scoring matricesde
dc.subject.bk54.80de
dc.identifier.urnurn:nbn:de:gbv:7-webdoc-1316-4de
dc.identifier.purlwebdoc-1316de
dc.affiliation.instituteFakultät für Mathematik und Informatikde
dc.subject.gokfullAHJ 300: Life and Medical Sciences {Computer Applications}de
dc.subject.gokfullWD 500: Bioinformatik {Biologie}de
dc.identifier.ppn579209997de


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige