• Deutsch
    • English
  • English 
    • Deutsch
    • English
  • Login
Item View 
  •   Home
  • Naturwissenschaften, Mathematik und Informatik
  • Fakultät für Mathematik und Informatik (inkl. GAUSS)
  • Item View
  •   Home
  • Naturwissenschaften, Mathematik und Informatik
  • Fakultät für Mathematik und Informatik (inkl. GAUSS)
  • Item View
JavaScript is disabled for your browser. Some features of this site may not work without it.

A Bioinformatics Pipeline for Identifying Dysregulated Pathways in Cancer from Comparative RNA-Seq Transcriptome Analysis

by Darius Wlochowitz
Doctoral thesis
Date of Examination:2022-03-29
Date of issue:2022-04-07
Advisor:Prof. Dr. Edgar Wingender
Referee:Prof. Dr. Edgar Wingender
Referee:Prof. Dr. Stephan Waack
crossref-logoPersistent Address: http://dx.doi.org/10.53846/goediss-9176

 

 

Files in this item

Name:Darius_Wlochowitz_Thesis.pdf
Size:66.2Mb
Format:PDF
Description:dwl_Main
ViewOpen

The following license files are associated with this item:


Abstract

English

Cancer is characterized as a multifactorial disease which undergoes genetic and epige- netic changes during invasive tumor growth. Thus, numerous tumor samples have been profiled using high-throughput sequencing technologies such as microarray and RNA sequencing (RNA-Seq) to obtain their transcriptomes. However, disentangling such high- dimensional data to identify dysregulated signaling pathways remains a difficult task. To close this gap, bioinformatics pipelines are needed to uncover gene misregulation by establishing causal regulatory links between transcription factors (TFs) and their target genes. TFs are proteins that control gene expression by recognizing short motifs called transcription factor binding sites (TFBSs) in DNA regulatory regions like promoters, en- hancers, and silencers. To this end, the goal of this thesis was to establish and evaluate a bioinformatics pipeline for comparing phenotypes based on RNA-Seq. The individual workflows of the pipeline comprise methods in RNA-Seq data analysis, promoter analysis, comprehensive functional categorization, and master regulator analysis (MRA), thereby identifying differentially expressed genes (DEGs), TFs, biological processes, and master regulators (MRs). For promoter analysis, a discriminative motif discovery approach using the Boruta feature selection algorithm is proposed, which distinguishes two DEG promoter sequence datasets based on TFBS patterns. In addition, a gene clustering approach is proposed using the Jensen-Shannon divergence (JSD), principal component analysis (PCA), and the k-means algorithm, which groups DEG promoters based on TFBS patterns related to the discrimi- native motifs. The gene clusters obtained are subjected to Gene Ontology (GO) functional categorization and MRA. The utility of the pipeline was demonstrated using three heterogenous gene expression studies that are characterized by distinct signaling pathway activity in cancer. In the course of promoter analysis, the results indicated that Boruta’s ranking-based importance scores can be used to identify biologically relevant TFs. Furthermore, the results indicated clearly separated gene clusters characterized by uniquely significant GO terms and MRs. In conclusion, the pipeline provides a useful bioinformatics framework for the comparative study of phenotypes based on RNA-Seq to reveal variations in transcriptional regulation and pathway repertoire.
Keywords: transcriptional regulation; promoter analysis; transcription factor; master regulator; differential expression analysis

German

Krebs ist eine multifaktorielle Erkrankung, die während des invasiven Tumorwachstums genetische und epigenetische Veränderungen durchläuft. So wurden zahlreiche Tumor- proben mit Hilfe von Hochdurchsatz-Sequenzierungstechnologien wie Microarray und RNA-Sequenzierung (RNA-Seq) profiliert, um ihre Transkriptome zu erhalten. Es bleibt jedoch eine schwierige Aufgabe, solche hochdimensionalen Daten zu entschlüsseln, um dysregulierte Signalwege zu identifizieren. Um diese Lücke zu schließen, werden bioin- formatische Pipelines benötigt, die die Fehlregulierung von Genen aufdecken, indem sie kausale regulatorische Verbindungen zwischen Transkriptionsfaktoren (TFs) und ihren Ziel- genen herstellen. TFs sind Proteine, die die Genexpression steuern, indem sie kurze Motive, so genannte Transkriptionsfaktor-Bindungsstellen (TFBS), in DNA-Regulationsregionen wie z.B. Promotoren, Enhancern und Silencern erkennen. Ziel dieser Arbeit war es daher, eine Bioinformatik-Pipeline für den Vergleich von Phänotypen auf der Grundlage von RNA-Seq zu entwickeln und zu bewerten. Die einzel- nen Arbeitsabläufe der Pipeline umfassen Methoden in der RNA-Seq-Datenanalyse, der Promotoranalyse, der umfassenden Funktionsanalyse und der Master-Regulator-Analyse (MRA), wodurch differenziell exprimierte Gene (DEG), TFs, biologische Prozesse und Master-Regulatoren (MR) identifiziert werden. Für die Promoter-Analyse wird ein diskri- minierender Motiv-Entdeckungsansatz mit dem Boruta feature selection-Algorithmus vorgeschlagen, der zwei DEG-Promotersequenzdatensätze auf der Grundlage von TFBS- Mustern unterscheidet. Darüber hinaus wird ein Gengruppierungsansatz vorgeschlagen, bei dem Jensen-Shannon-Divergenz (JSD), Hauptkomponentenanalyse (PCA) und der k-Means-Algorithmus verwendet werden. Dieser Ansatz gruppiert die DEG-Promotoren auf der Grundlage von TFBS-Mustern, welche mit den diskriminierenden Motiven zusam- menhängen. Die erhaltenen Gengruppen werden dann einer funktionalen Kategorisierung mit Hilfe der Gene Ontology (GO) und einer MRA unterzogen. Die Nützlichkeit der Pipeline wurde anhand von drei heterogenen Genexpressionsstu- dien demonstriert, die sich durch eine unterschiedliche Aktivität der Signalwege bei Krebs auszeichnen. Im Verlauf der Promotoranalyse zeigten die Ergebnisse, dass die auf der Rang- folge basierenden Wichtigkeitsscores von Boruta verwendet werden können, um biologisch relevante TFs zu identifizieren. Darüber hinaus wiesen die Ergebnisse auf klar getrennte Gengruppen hin, die durch eindeutig signifikante GO-Begrifflichkeiten und MRs gekennze- ichnet sind. Zusammenfassend lässt sich sagen, dass die Pipeline einen nützlichen bioinfor- matischen Rahmen für die vergleichende Untersuchung von Phänotypen auf der Grundlage von RNA-Seq bietet, um Variationen in der Transkriptionsregulation und im Repertoire der Signalwege aufzudecken.
 

Statistik

Publish here

Browse

All of eDissFaculties & ProgramsIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesTypeThis FacultyIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesType

Help & Info

Publishing on eDissPDF GuideTerms of ContractFAQ

Contact Us | Impressum | Cookie Consents | Data Protection Information
eDiss Office - SUB Göttingen (Central Library)
Platz der Göttinger Sieben 1
Mo - Fr 10:00 – 12:00 h


Tel.: +49 (0)551 39-27809 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
ediss_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]
Göttingen State and University Library | Göttingen University
Medicine Library (Doctoral candidates of medicine only)
Robert-Koch-Str. 40
Mon – Fri 8:00 – 24:00 h
Sat - Sun 8:00 – 22:00 h
Holidays 10:00 – 20:00 h
Tel.: +49 551 39-8395 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
bbmed_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]