Peak intensity prediction in mass spectra using machine learning methods
Timm W (2008)
Bielefeld (Germany): Bielefeld University.
Bielefelder E-Dissertation | Englisch
Autor*in
Timm, Wiebke
Gutachter*in / Betreuer*in
Einrichtung
Alternativer Titel
Peakintensitätsvorhersage in Massenspektren mit maschinellen Lernmethoden
Abstract / Bemerkung
Massenspektrometrie ist heutzutage unersetzlich, um Proteine und Peptide in komplexen biologischen Proben schnell zu untersuchen. Das Hauptproblem bei der quantitativen Analyse mit Methoden der Massenspektrometrie ist dabei die Tatsache, dass die Empfindlichkeit von Massenspektrometern prinzipbedingt peptidabhängig ist. Daher ist die Beziehung zwischen beobachteten Peakintensitäten und den entsprechenden Peptidkonzentrationen in der Probe unklar. Es gibt verschiedene Ansätze, dieses Problem durch Labeling-Techniken zu umgehen. Allerdings sind diese Techniken extrem teuer und zeitaufwändig in der Anwendung. Wenn man die peptidabhängige Empfindlichkeit verlässlich vorhersagen könnte, dann könnte man einen peptidabhängigen Korrekturfaktor berechnen, wodurch die Genauigkeit von absoluten Quantifizierungstechniken ohne den Einsatz von Labeling-Techniken (label-free absolute quantitation) verbessert werden könnte.
In dieser Arbeit beschäftige ich mich mit der Frage, ob es möglich ist, die peptidspezifische Empfindlichkeit eines Massenspektrometers zu modellieren. Zu diesem Zweck wird mithilfe von Datensätzen eines Matrix-Assisted Laser Desorption Ionization (MALDI)-Massenspektrometers ein Verfahren entwickelt, das Simulation und Überwachte Lernverfahren kombiniert. Der zweite Teil der Arbeit hat zum Ziel, jene Peptideigenschaften zu ermitteln, die den größten Einfluß auf die peptidspezifischen Empfindlichkeiten haben.
Diese Arbeit stellt einen wichtigen Schritt dar, um die Genaugkeit Label-freier Quantifizierung mithilfe von Massenspektrometrie zu verbessern: Ich zeige, dass die Vorhersage der peptidabhängigen Empfindlichkeit tatsächlich möglich ist, sogar mit nur wenig Daten. Das beste hier vorgestellte Verfahren erreicht eine signifikante quadratische Pearson-Korrelation von 0,46 in einer zehnfachen Kreuzvalidierung (ten-fold cross-validation). Wissensextraktion mit Feature Selection-Methoden deckt sowohl bereits bekannte als auch neue Peptid-Eigenschaften auf, die für das Problem relevant sind. Im Zuge dessen wird Least-Angle Regression, eine moderne Feature Selection-Technik, evaluiert und als geeignet befunden, auch auf verrauschten Daten gute Ergebnisse zu erzielen.
Mass spectrometry (MS) is an indispensable technique for the fast analysis of proteins and peptides in complex biological samples. One key problem with the quantitative mass spectrometric analysis of peptides and proteins, however, is the fact that the sensitivity of MS instruments is peptide-dependent, leading to an unclear relationship between the observed peak intensity and the peptide concentration in the sample. Various labeling techniques have been developed to circumvent this problem, but are very expensive and time-consuming. A reliable prediction of peptide-specific sensitivies could provide a peptide-specific correction factor, which would be valuable for label-free absolute quantitation. In this work, I analyze if modeling of peptide-specific sensitivities of unkonwn proteins is feasible. For this purpose, a combined simulation and supervised learning approach is developed using datasets from matrix-assisted laser desorption ionization (MALDI). As a second main focus, I deal with the question which peptide properties have the most influence on peptide-specific sensitivities. This work constitutes an important step to enhance label-free quantification accuracy: I show that the prediction of peptide-specific sensitivities is indeed feasible even on a small dataset. A significant Pearson's squared correlation of 0.46 in ten-fold cross-validation is reached with support vector regression. Knowledge extraction with feature selection methods leads to the rediscovery of known as well as new properties that are relevant for this problem. Least-angle regression, a modern feature selection technique, is evaluated for this purpose among others, and is shown to perform comparatively well on noisy MS data.
Mass spectrometry (MS) is an indispensable technique for the fast analysis of proteins and peptides in complex biological samples. One key problem with the quantitative mass spectrometric analysis of peptides and proteins, however, is the fact that the sensitivity of MS instruments is peptide-dependent, leading to an unclear relationship between the observed peak intensity and the peptide concentration in the sample. Various labeling techniques have been developed to circumvent this problem, but are very expensive and time-consuming. A reliable prediction of peptide-specific sensitivies could provide a peptide-specific correction factor, which would be valuable for label-free absolute quantitation. In this work, I analyze if modeling of peptide-specific sensitivities of unkonwn proteins is feasible. For this purpose, a combined simulation and supervised learning approach is developed using datasets from matrix-assisted laser desorption ionization (MALDI). As a second main focus, I deal with the question which peptide properties have the most influence on peptide-specific sensitivities. This work constitutes an important step to enhance label-free quantification accuracy: I show that the prediction of peptide-specific sensitivities is indeed feasible even on a small dataset. A significant Pearson's squared correlation of 0.46 in ten-fold cross-validation is reached with support vector regression. Knowledge extraction with feature selection methods leads to the rediscovery of known as well as new properties that are relevant for this problem. Least-angle regression, a modern feature selection technique, is evaluated for this purpose among others, and is shown to perform comparatively well on noisy MS data.
Stichworte
Proteomanalyse;
Flugzeitmassenspektrometrie;
MALDI-MS;
Maschinelles Lernen;
Data Mining;
Bioinformatik;
Quantitative proteomics;
Mass spectrometry;
Machine learning;
Feature selection
Jahr
2008
Page URI
https://pub.uni-bielefeld.de/record/2305427
Zitieren
Timm W. Peak intensity prediction in mass spectra using machine learning methods. Bielefeld (Germany): Bielefeld University; 2008.
Timm, W. (2008). Peak intensity prediction in mass spectra using machine learning methods. Bielefeld (Germany): Bielefeld University.
Timm, Wiebke. 2008. Peak intensity prediction in mass spectra using machine learning methods. Bielefeld (Germany): Bielefeld University.
Timm, W. (2008). Peak intensity prediction in mass spectra using machine learning methods. Bielefeld (Germany): Bielefeld University.
Timm, W., 2008. Peak intensity prediction in mass spectra using machine learning methods, Bielefeld (Germany): Bielefeld University.
W. Timm, Peak intensity prediction in mass spectra using machine learning methods, Bielefeld (Germany): Bielefeld University, 2008.
Timm, W.: Peak intensity prediction in mass spectra using machine learning methods. Bielefeld University, Bielefeld (Germany) (2008).
Timm, Wiebke. Peak intensity prediction in mass spectra using machine learning methods. Bielefeld (Germany): Bielefeld University, 2008.
Alle Dateien verfügbar unter der/den folgenden Lizenz(en):
Copyright Statement:
Dieses Objekt ist durch das Urheberrecht und/oder verwandte Schutzrechte geschützt. [...]
Volltext(e)
Access Level
Open Access
Zuletzt Hochgeladen
2019-09-25T06:26:50Z
MD5 Prüfsumme
bdd3f2e7d7d9dac2fba068898ae0d179