Gene finding and the evaluation of synonymous codon usage features in microbial genomes

McHardy AC (2004)
Bielefeld (Germany): Bielefeld University.

Download
OA
Bielefeld Dissertation | English
Author
Supervisor
Giegerich, Robert (Prof. Dr.)
Abstract
Diese Arbeit befasst sich mit der Vorhersage von Genen, von Genexpressionsraten und der Detektion und Charakterisierung von horizontal transferierten Genregionen in mikrobiellen Genomen. Diese Themen sind sowohl für die Annotation als auch für weiterführende, experimentelle Analysen eines Organismus von Bedeutung. Teile der Arbeit wurden bereits in verschiedenen Fachzeitschriften veröffentlicht. Der Inhalt von Kapitel 1 wird in diesem Jahr in Bioinformatics erscheinen, Kapitel 3 wurde in der ersten Ausgabe von Proteomics in 2004 veröffentlicht. Die Implementierung einer Genvorhersagekomponente für das Annotationssystem GenDB wird in der Veröffentlichung über das Annotationssystem in Nucleic Acids Research (April 2003) beschrieben. Im Folgenden werden die Ziele und Themen dieser Arbeit genauer beschrieben. Im ersten Kapitel wird die Entwicklung von Genvorhersage-Strategien für mikrobielle Genome, basierend auf den häufig verwendeten Programmen Glimmer und Critica, beschrieben. Aufgrund der Vielzahl von laufenden Genomprojekten verschiedener Organismen wird es zunehmend wichtiger, ein performantes Verfahren für diese Aufgabe zu haben. Hierzu wurde ursprünglich die Performanz der beiden Programme auf einem Datensatz von 114 prokaryotischen Genomsequenzen evaluiert. Anschließend wurden kombinierte Vorhersagestrategien entwickelt, die eine signifikante Performanz-Verbesserung aufweisen. Dies ist besonders für GC-reiche Genome der Fall. Die Methoden werden zur Zeit bereits in mehreren mikrobiellen Genomprojekten angewandt. Der zweite Teil der Arbeit beschäftigt sich mit der Evaluierung des synonymen Codongebrauchs in den Kodierregionen prokaryotischer Genome. Zur Klassifikation anhand von Eigenschaften des Codongebrauchs wird ein neues, auf log-odds ratio scores basierendes Verfahren eingeführt, welches einige vorteilhafte Eigenschaften besitzt. In Kapitel 2 wird das Verfahren und dessen Implementierung in dem Program CoBias beschrieben. In Kapitel 3 wird das Verfahren angewendet, um Genexpressionsraten anhand von Expressionlevel-abhängigen Eigenschaften des Codongebrauchs vorherzusagen. Durch einen Vergleich mit Daten aus zwei Proteomstudien wird die implizite Annahme der Vorgehensweise untersucht und bestätigt. Es wird gezeigt, wie die Ergebnisse der Methode sich verwenden lassen, um die 'in silico' Simulation von 2-dimensionalen Gelelektrophoreseexperimenten zu verbessern. Im vierten Kapitel wird das Verfahren angewendet, um, basierend auf Unterschieden im synonymen Codongebrauch zwischen mikrobiellen Genomen, horizontal transferierte Gene zu erkennen und einen möglichen Donor für diese vorherzusagen. Die Vorhersage eines Donors ist eine Neuerung gegenüber anderen Methoden, die horizontal transferierte Gene anhand ihrer atypischen Sequenz-Zusammensetzung detektierten. Eine Evaluation des Ansatzes wird für das Genom des hyperthermophilen Bakteriums Thermotoga maritima durchgeführt, welches Genregionen von vermutlich archaebakteriellem Ursprung enthält. Die mit der neuen Methode gefundenen Ergebnisse stehen im Einklang mit den Ergebnissen von früheren phylogenetischen und strukturellen Analysen des Genomes und liefern weiteres, unabhängiges Beweismaterial für den archaebakteriellen Ursprung von Teilen des T. maritima Genoms.

This work deals with the prediction of genes, gene expression rates and the detection and characterization of horizontally aquired gene regions in microbial genomes. These topics are of relevance for genome annotation and for further experimental studies of the organism. The content of chapter 1 will appear in Bionformatics later this year, chapter 3 has been published in the first issue of Proteomics in 2004. The implementation of the gene prediction component of the GenDB genome annotation system (chapter 5) is described in the publication on GenDB which appeared in Nucleic Acids Research in April, 2003. In the following, the aims and topics of this work are explained in more detail. Chapter 1 describes the development of joint gene finding strategies for microbial genomes which combine the strengths of the commonly used Glimmer and Critica programs. A large number of genome projects have either recently been finished or are currently underway, and it is becoming increasingly important to have performant methods for this task. Initially, the gene finding performance of the two programs was evaluated for a data set of 114 prokaryotic genome sequences belonging to a wide variety of microbial organisms. Subsequently, joint application strategies were optimized in performance, using different parameters with relevance to the gene finding problem. The resulting combined methods are significantly improved in performance, especially for GC-rich genomes. They are already being applied in several microbial genome projects. The second part focuses on the evaluation of synonymous codon usage features of prokaryotic coding sequences. For classification based on such features, a novel method of log-odds ratio scoring is introduced, which has several favorable properties. Chapter 2 contains a description of the method and its implementation in the CoBias program. In chapter 3, the novel method is applied to the prediction of highly expressed genes and for estimation of gene expression levels. The implicit assumption is that expression level-dependent features in codon usage can be taken as estimates of protein expression rates. This is supported by a comparison with data on protein abundance from the Escherichia coli and Bacillus subtilis exponential growth phase. It is finally demonstrated how the results can be used for 'predictive proteomics' - to improve the in silico simulation of 2-dimensional gel electrophoretic experiments. In chapter 4, the method is used for the detection of horizontally transferred genes contained in contemporary microbial genomes and the inference of a putative donor species. The method allows the inference of a potential donor genome based on genome-specific sequence properties, which is an innovation compared to existing methods. An in detail evaluation is performed for the genome of bacterial hyperthermophile Thermotoga maritima, which presumably contains regions of archaebacterial origin. The results found with the new method agree well with the results of previous phylogenetic and structural analyses of the genome and give additional, independent support for the archaebacterial origin of parts of the T. maritima genome.
Year
PUB-ID

Cite this

McHardy AC. Gene finding and the evaluation of synonymous codon usage features in microbial genomes. Bielefeld (Germany): Bielefeld University; 2004.
McHardy, A. C. (2004). Gene finding and the evaluation of synonymous codon usage features in microbial genomes. Bielefeld (Germany): Bielefeld University.
McHardy, A. C. (2004). Gene finding and the evaluation of synonymous codon usage features in microbial genomes. Bielefeld (Germany): Bielefeld University.
McHardy, A.C., 2004. Gene finding and the evaluation of synonymous codon usage features in microbial genomes, Bielefeld (Germany): Bielefeld University.
A.C. McHardy, Gene finding and the evaluation of synonymous codon usage features in microbial genomes, Bielefeld (Germany): Bielefeld University, 2004.
McHardy, A.C.: Gene finding and the evaluation of synonymous codon usage features in microbial genomes. Bielefeld University, Bielefeld (Germany) (2004).
McHardy, Alice Carolyn. Gene finding and the evaluation of synonymous codon usage features in microbial genomes. Bielefeld (Germany): Bielefeld University, 2004.
Main File(s)
File Name
Access Level
OA Open Access

This data publication is cited in the following publications:
This publication cites the following data publications:

Export

0 Marked Publications

Open Data PUB

Search this title in

Google Scholar