Zur Kurzanzeige

A Bioinformatics Pipeline for Identifying Dysregulated Pathways in Cancer from Comparative RNA-Seq Transcriptome Analysis

dc.contributor.advisorWingender, Edgar Prof. Dr.
dc.contributor.authorWlochowitz, Darius
dc.date.accessioned2022-04-07T13:44:54Z
dc.date.available2022-04-14T00:50:27Z
dc.date.issued2022-04-07
dc.identifier.urihttp://resolver.sub.uni-goettingen.de/purl?ediss-11858/13976
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-9176
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subject.ddc510de
dc.titleA Bioinformatics Pipeline for Identifying Dysregulated Pathways in Cancer from Comparative RNA-Seq Transcriptome Analysisde
dc.typedoctoralThesisde
dc.contributor.refereeWingender, Edgar Prof. Dr.
dc.date.examination2022-03-29de
dc.description.abstractgerKrebs ist eine multifaktorielle Erkrankung, die während des invasiven Tumorwachstums genetische und epigenetische Veränderungen durchläuft. So wurden zahlreiche Tumor- proben mit Hilfe von Hochdurchsatz-Sequenzierungstechnologien wie Microarray und RNA-Sequenzierung (RNA-Seq) profiliert, um ihre Transkriptome zu erhalten. Es bleibt jedoch eine schwierige Aufgabe, solche hochdimensionalen Daten zu entschlüsseln, um dysregulierte Signalwege zu identifizieren. Um diese Lücke zu schließen, werden bioin- formatische Pipelines benötigt, die die Fehlregulierung von Genen aufdecken, indem sie kausale regulatorische Verbindungen zwischen Transkriptionsfaktoren (TFs) und ihren Ziel- genen herstellen. TFs sind Proteine, die die Genexpression steuern, indem sie kurze Motive, so genannte Transkriptionsfaktor-Bindungsstellen (TFBS), in DNA-Regulationsregionen wie z.B. Promotoren, Enhancern und Silencern erkennen. Ziel dieser Arbeit war es daher, eine Bioinformatik-Pipeline für den Vergleich von Phänotypen auf der Grundlage von RNA-Seq zu entwickeln und zu bewerten. Die einzel- nen Arbeitsabläufe der Pipeline umfassen Methoden in der RNA-Seq-Datenanalyse, der Promotoranalyse, der umfassenden Funktionsanalyse und der Master-Regulator-Analyse (MRA), wodurch differenziell exprimierte Gene (DEG), TFs, biologische Prozesse und Master-Regulatoren (MR) identifiziert werden. Für die Promoter-Analyse wird ein diskri- minierender Motiv-Entdeckungsansatz mit dem Boruta feature selection-Algorithmus vorgeschlagen, der zwei DEG-Promotersequenzdatensätze auf der Grundlage von TFBS- Mustern unterscheidet. Darüber hinaus wird ein Gengruppierungsansatz vorgeschlagen, bei dem Jensen-Shannon-Divergenz (JSD), Hauptkomponentenanalyse (PCA) und der k-Means-Algorithmus verwendet werden. Dieser Ansatz gruppiert die DEG-Promotoren auf der Grundlage von TFBS-Mustern, welche mit den diskriminierenden Motiven zusam- menhängen. Die erhaltenen Gengruppen werden dann einer funktionalen Kategorisierung mit Hilfe der Gene Ontology (GO) und einer MRA unterzogen. Die Nützlichkeit der Pipeline wurde anhand von drei heterogenen Genexpressionsstu- dien demonstriert, die sich durch eine unterschiedliche Aktivität der Signalwege bei Krebs auszeichnen. Im Verlauf der Promotoranalyse zeigten die Ergebnisse, dass die auf der Rang- folge basierenden Wichtigkeitsscores von Boruta verwendet werden können, um biologisch relevante TFs zu identifizieren. Darüber hinaus wiesen die Ergebnisse auf klar getrennte Gengruppen hin, die durch eindeutig signifikante GO-Begrifflichkeiten und MRs gekennze- ichnet sind. Zusammenfassend lässt sich sagen, dass die Pipeline einen nützlichen bioinfor- matischen Rahmen für die vergleichende Untersuchung von Phänotypen auf der Grundlage von RNA-Seq bietet, um Variationen in der Transkriptionsregulation und im Repertoire der Signalwege aufzudecken.de
dc.description.abstractengCancer is characterized as a multifactorial disease which undergoes genetic and epige- netic changes during invasive tumor growth. Thus, numerous tumor samples have been profiled using high-throughput sequencing technologies such as microarray and RNA sequencing (RNA-Seq) to obtain their transcriptomes. However, disentangling such high- dimensional data to identify dysregulated signaling pathways remains a difficult task. To close this gap, bioinformatics pipelines are needed to uncover gene misregulation by establishing causal regulatory links between transcription factors (TFs) and their target genes. TFs are proteins that control gene expression by recognizing short motifs called transcription factor binding sites (TFBSs) in DNA regulatory regions like promoters, en- hancers, and silencers. To this end, the goal of this thesis was to establish and evaluate a bioinformatics pipeline for comparing phenotypes based on RNA-Seq. The individual workflows of the pipeline comprise methods in RNA-Seq data analysis, promoter analysis, comprehensive functional categorization, and master regulator analysis (MRA), thereby identifying differentially expressed genes (DEGs), TFs, biological processes, and master regulators (MRs). For promoter analysis, a discriminative motif discovery approach using the Boruta feature selection algorithm is proposed, which distinguishes two DEG promoter sequence datasets based on TFBS patterns. In addition, a gene clustering approach is proposed using the Jensen-Shannon divergence (JSD), principal component analysis (PCA), and the k-means algorithm, which groups DEG promoters based on TFBS patterns related to the discrimi- native motifs. The gene clusters obtained are subjected to Gene Ontology (GO) functional categorization and MRA. The utility of the pipeline was demonstrated using three heterogenous gene expression studies that are characterized by distinct signaling pathway activity in cancer. In the course of promoter analysis, the results indicated that Boruta’s ranking-based importance scores can be used to identify biologically relevant TFs. Furthermore, the results indicated clearly separated gene clusters characterized by uniquely significant GO terms and MRs. In conclusion, the pipeline provides a useful bioinformatics framework for the comparative study of phenotypes based on RNA-Seq to reveal variations in transcriptional regulation and pathway repertoire.de
dc.contributor.coRefereeWaack, Stephan Prof. Dr.
dc.subject.engtranscriptional regulationde
dc.subject.engpromoter analysisde
dc.subject.engtranscription factorde
dc.subject.engmaster regulatorde
dc.subject.engdifferential expression analysisde
dc.identifier.urnurn:nbn:de:gbv:7-ediss-13976-8
dc.affiliation.instituteFakultät für Mathematik und Informatikde
dc.subject.gokfullInformatik (PPN619939052)de
dc.description.embargoed2022-04-14de
dc.identifier.ppn1799351823


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige