Zur Kurzanzeige

Development of novel Classical and Quantum Information Theory Based Methods for the Detection of Compensatory Mutations in MSAs

dc.contributor.advisorWaack, Stephan Prof. Dr.
dc.contributor.authorGültas, Mehmet
dc.date.accessioned2014-05-13T07:38:42Z
dc.date.available2014-05-13T07:38:42Z
dc.date.issued2014-05-13
dc.identifier.urihttp://hdl.handle.net/11858/00-1735-0000-0022-5EB0-1
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-4501
dc.description.abstractMultiple Sequenzalignments (MSAs) von homologen Proteinen sind nützliche Werkzeuge, um kompensatorische Mutationen zwischen nicht-konservierten Residuen zu charakterisieren. Die Identifizierung dieser Residuen in MSAs ist eine wichtige Aufgabe um die strukturellen Grundlagen und molekularen Mechanismen von Proteinfunktionen besser zu verstehen. Trotz der vielen Anzahl an Literatur über kompensatorische Mutationen sowie über die Sequenzkonservierungsanalyse für die Erkennung von wichtigen Residuen, haben vorherige Methoden meistens die biochemischen Eigenschaften von Aminosäuren nicht mit in Betracht gezogen, welche allerdings entscheidend für die Erkennung von kompensatorischen Mutationssignalen sein können. Jedoch werden kompensatorische Mutationssignale in MSAs oft durch das Rauschen verfälscht. Aus diesem Grund besteht ein weiteres Problem der Bioinformatik in der Trennung signifikanter Signale vom phylogenetischen Rauschen und beziehungslosen Paarsignalen. Das Ziel dieser Arbeit besteht darin Methoden zu entwickeln, welche biochemische Eigenschaften wie Ähnlichkeiten und Unähnlichkeiten von Aminosäuren in der Identifizierung von kompensatorischen Mutationen integriert und sich mit dem Rauschen auseinandersetzt. Deshalb entwickeln wir unterschiedliche Methoden basierend auf klassischer- und quantum Informationstheorie sowie multiple Testverfahren. Unsere erste Methode basiert auf der klassischen Informationstheorie. Diese Methode betrachtet hauptsächlich BLOSUM62-unähnliche Paare von Aminosäuren als ein Modell von kompensatorischen Mutationen und integriert sie in die Identifizierung von wichtigen Residuen. Um diese Methode zu ergänzen, entwickeln wir unsere zweite Methode unter Verwendung der Grundlagen von quantum Informationstheorie. Diese neue Methode unterscheidet sich von der ersten Methode durch gleichzeitige Modellierung ähnlicher und unähnlicher Signale in der kompensatorischen Mutationsanalyse. Des Weiteren, um signifikante Signale vom Rauschen zu trennen, entwickeln wir ein MSA-spezifisch statistisches Modell in Bezug auf multiple Testverfahren. Wir wenden unsere Methode für zwei menschliche Proteine an, nämlich epidermal growth factor receptor (EGFR) und glucokinase (GCK). Die Ergebnisse zeigen, dass das MSA-spezifisch statistische Modell die signifikanten Signale vom phylogenetischen Rauschen und von beziehungslosen Paarsignalen trennen kann. Nur unter Berücksichtigung BLOSUM62-unähnlicher Paare von Aminosäuren identifiziert die erste Methode erfolgreich die krankheits-assoziierten wichtigen Residuen der beiden Proteine. Im Gegensatz dazu, durch die gleichzeitige Modellierung ähnlicher und unähnlicher Signale von Aminosäurepaare ist die zweite Methode sensibler für die Identifizierung von katalytischen und allosterischen Residuen.de
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/
dc.subject.ddc510de
dc.titleDevelopment of novel Classical and Quantum Information Theory Based Methods for the Detection of Compensatory Mutations in MSAsde
dc.typedoctoralThesisde
dc.contributor.refereeWaack, Stephan Prof. Dr.
dc.date.examination2013-09-18
dc.description.abstractengMultiple sequence alignments (MSAs) of homologous proteins are useful tools to characterize compensatory mutations between non-conserved residue sites. The identification of these residue sites in MSAs is an important challenge for understanding the structural basis and molecular mechanism of protein functions. Despite the rich literature on compensatory mutations as well as sequence conservation analysis for the identification of those important residue sites, previous methods often do not take into account biochemical constraints of amino acids which are likely to be crucial for the detection of compensatory mutation signals. However, compensatory mutation signals in MSAs are often masked by noise. Thus, another challenging problem in bioinformatics is the separation of significant signals from the phylogenetic noise and unrelated pair signals. The goal of this thesis is to develop such methods that incorporate biochemical constraints like similarities or dissimilarities of amino acids in identifying compensatory mutations and deal with the noise. Hence, we develop different methods based on classical and quantum information theory and multiple testing procedures. Our first method is based on classical information theory. It mainly focuses on BLOSUM62-dissimilar amino acid pairs as a model of compensatory mutations and incorporates them in the prediction of functionally and/or structurally important sites using a doubly stochastic matrix. To complement this method, we develop our second method applying principles of quantum information theory. The new method differs from the first one by simultaneously modeling similar and dissimilar amino acid pair signals in the compensatory mutation analysis. Moreover, to separate method-based significant compensatory mutation signals from background noise, we develop an MSA-specific statistical model devised for multiple testing problems. By applying this model, we are capable of determining significant signals in MSAs as well as quantifying the error made in terms of the false discovery rate. To demonstrate the effectiveness of our methods, we evaluate those analyzing important sites of two human proteins, namely epidermal growth factor receptor (EGFR) and glucokinase (GCK). Our results suggest that the MSA-specific statistical model is able to separate significant compensatory mutation signals from the phylogenetic noise and unrelated pair signals. Only considering the dissimilarities of amino acids, the first method successfully deals with disease-associated important sites of both proteins. In contrast, simultaneously focusing on similar and dissimilar amino acid signals, the second method is more sensible to catalytic, allosteric and binding sites. The results further show that overlaps between both methods are quite low, indicating that considerably different sets of residue sites are detected by both methods as functionally and structurally important. As a result of this, we can say that our second method complements the first method when it comes to predicting important sites, rather than replacing it.de
dc.contributor.coRefereeDamm, Carsten Prof. Dr.
dc.contributor.thirdRefereeStanke, Mario Prof. Dr.
dc.subject.gerFalse discovery rate (FDR)de
dc.subject.gerCoupled Mutation Finderde
dc.subject.gerQuantum Coupled Mutation Finderde
dc.subject.gerBeta distributionde
dc.subject.gerMutual Informationde
dc.subject.gerQuantum Jensen-Shannon divergencede
dc.subject.engQuantum information theoryde
dc.subject.engInformation theoryde
dc.subject.engJensen-Shannon divergencede
dc.subject.engMSAde
dc.subject.engEGFRde
dc.subject.engGCKde
dc.identifier.urnurn:nbn:de:gbv:7-11858/00-1735-0000-0022-5EB0-1-9
dc.affiliation.instituteFakultät für Mathematik und Informatikde
dc.subject.gokfullInformatik (PPN619939052)de
dc.identifier.ppn78558174X


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige