dc.contributor.advisor | Wingender, Edgar Prof. Dr. | |
dc.contributor.author | Wlochowitz, Darius | |
dc.date.accessioned | 2022-04-07T13:44:54Z | |
dc.date.available | 2022-04-14T00:50:27Z | |
dc.date.issued | 2022-04-07 | |
dc.identifier.uri | http://resolver.sub.uni-goettingen.de/purl?ediss-11858/13976 | |
dc.identifier.uri | http://dx.doi.org/10.53846/goediss-9176 | |
dc.language.iso | eng | de |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
dc.subject.ddc | 510 | de |
dc.title | A Bioinformatics Pipeline for Identifying Dysregulated Pathways in Cancer from Comparative RNA-Seq Transcriptome Analysis | de |
dc.type | doctoralThesis | de |
dc.contributor.referee | Wingender, Edgar Prof. Dr. | |
dc.date.examination | 2022-03-29 | de |
dc.description.abstractger | Krebs ist eine multifaktorielle Erkrankung, die während des invasiven Tumorwachstums
genetische und epigenetische Veränderungen durchläuft. So wurden zahlreiche Tumor-
proben mit Hilfe von Hochdurchsatz-Sequenzierungstechnologien wie Microarray und
RNA-Sequenzierung (RNA-Seq) profiliert, um ihre Transkriptome zu erhalten. Es bleibt
jedoch eine schwierige Aufgabe, solche hochdimensionalen Daten zu entschlüsseln, um
dysregulierte Signalwege zu identifizieren. Um diese Lücke zu schließen, werden bioin-
formatische Pipelines benötigt, die die Fehlregulierung von Genen aufdecken, indem sie
kausale regulatorische Verbindungen zwischen Transkriptionsfaktoren (TFs) und ihren Ziel-
genen herstellen. TFs sind Proteine, die die Genexpression steuern, indem sie kurze Motive,
so genannte Transkriptionsfaktor-Bindungsstellen (TFBS), in DNA-Regulationsregionen
wie z.B. Promotoren, Enhancern und Silencern erkennen.
Ziel dieser Arbeit war es daher, eine Bioinformatik-Pipeline für den Vergleich von
Phänotypen auf der Grundlage von RNA-Seq zu entwickeln und zu bewerten. Die einzel-
nen Arbeitsabläufe der Pipeline umfassen Methoden in der RNA-Seq-Datenanalyse, der
Promotoranalyse, der umfassenden Funktionsanalyse und der Master-Regulator-Analyse
(MRA), wodurch differenziell exprimierte Gene (DEG), TFs, biologische Prozesse und
Master-Regulatoren (MR) identifiziert werden. Für die Promoter-Analyse wird ein diskri-
minierender Motiv-Entdeckungsansatz mit dem Boruta feature selection-Algorithmus
vorgeschlagen, der zwei DEG-Promotersequenzdatensätze auf der Grundlage von TFBS-
Mustern unterscheidet. Darüber hinaus wird ein Gengruppierungsansatz vorgeschlagen,
bei dem Jensen-Shannon-Divergenz (JSD), Hauptkomponentenanalyse (PCA) und der
k-Means-Algorithmus verwendet werden. Dieser Ansatz gruppiert die DEG-Promotoren
auf der Grundlage von TFBS-Mustern, welche mit den diskriminierenden Motiven zusam-
menhängen. Die erhaltenen Gengruppen werden dann einer funktionalen Kategorisierung
mit Hilfe der Gene Ontology (GO) und einer MRA unterzogen.
Die Nützlichkeit der Pipeline wurde anhand von drei heterogenen Genexpressionsstu-
dien demonstriert, die sich durch eine unterschiedliche Aktivität der Signalwege bei Krebs
auszeichnen. Im Verlauf der Promotoranalyse zeigten die Ergebnisse, dass die auf der Rang-
folge basierenden Wichtigkeitsscores von Boruta verwendet werden können, um biologisch
relevante TFs zu identifizieren. Darüber hinaus wiesen die Ergebnisse auf klar getrennte
Gengruppen hin, die durch eindeutig signifikante GO-Begrifflichkeiten und MRs gekennze-
ichnet sind. Zusammenfassend lässt sich sagen, dass die Pipeline einen nützlichen bioinfor-
matischen Rahmen für die vergleichende Untersuchung von Phänotypen auf der Grundlage
von RNA-Seq bietet, um Variationen in der Transkriptionsregulation und im Repertoire der
Signalwege aufzudecken. | de |
dc.description.abstracteng | Cancer is characterized as a multifactorial disease which undergoes genetic and epige-
netic changes during invasive tumor growth. Thus, numerous tumor samples have been
profiled using high-throughput sequencing technologies such as microarray and RNA
sequencing (RNA-Seq) to obtain their transcriptomes. However, disentangling such high-
dimensional data to identify dysregulated signaling pathways remains a difficult task.
To close this gap, bioinformatics pipelines are needed to uncover gene misregulation by
establishing causal regulatory links between transcription factors (TFs) and their target
genes. TFs are proteins that control gene expression by recognizing short motifs called
transcription factor binding sites (TFBSs) in DNA regulatory regions like promoters, en-
hancers, and silencers.
To this end, the goal of this thesis was to establish and evaluate a bioinformatics pipeline
for comparing phenotypes based on RNA-Seq. The individual workflows of the pipeline
comprise methods in RNA-Seq data analysis, promoter analysis, comprehensive functional
categorization, and master regulator analysis (MRA), thereby identifying differentially
expressed genes (DEGs), TFs, biological processes, and master regulators (MRs). For
promoter analysis, a discriminative motif discovery approach using the Boruta feature
selection algorithm is proposed, which distinguishes two DEG promoter sequence datasets
based on TFBS patterns. In addition, a gene clustering approach is proposed using the
Jensen-Shannon divergence (JSD), principal component analysis (PCA), and the k-means
algorithm, which groups DEG promoters based on TFBS patterns related to the discrimi-
native motifs. The gene clusters obtained are subjected to Gene Ontology (GO) functional
categorization and MRA.
The utility of the pipeline was demonstrated using three heterogenous gene expression
studies that are characterized by distinct signaling pathway activity in cancer. In the course
of promoter analysis, the results indicated that Boruta’s ranking-based importance scores
can be used to identify biologically relevant TFs. Furthermore, the results indicated clearly
separated gene clusters characterized by uniquely significant GO terms and MRs.
In conclusion, the pipeline provides a useful bioinformatics framework for the comparative
study of phenotypes based on RNA-Seq to reveal variations in transcriptional regulation
and pathway repertoire. | de |
dc.contributor.coReferee | Waack, Stephan Prof. Dr. | |
dc.subject.eng | transcriptional regulation | de |
dc.subject.eng | promoter analysis | de |
dc.subject.eng | transcription factor | de |
dc.subject.eng | master regulator | de |
dc.subject.eng | differential expression analysis | de |
dc.identifier.urn | urn:nbn:de:gbv:7-ediss-13976-8 | |
dc.affiliation.institute | Fakultät für Mathematik und Informatik | de |
dc.subject.gokfull | Informatik (PPN619939052) | de |
dc.description.embargoed | 2022-04-14 | de |
dc.identifier.ppn | 1799351823 | |