Large scale clustering of protein sequences

Krause A (2002)
Bielefeld (Germany): Bielefeld University.

Bielefelder E-Dissertation | Englisch
 
Download
OA
Autor*in
Krause, Antje
Gutachter*in / Betreuer*in
Giegerich, Robert (Prof. Dr.)
Alternativer Titel
Clusterung großer Proteinsequenzdatenmengen
Abstract / Bemerkung
Mit dem enormen Wachstum biologischer Sequenzdatenbanken wird die Verarbeitung dieser Daten mehr und mehr zum Problem. Proteinsequenzdatenbanken enthalten heute über eine halbe Million verschiedener Sequenzen. Es ist daher naheliegend, eine Gruppierung evolutionär verwandter Sequenzen durchzuführen. Dies bietet viele Vorteile. Eine häufig gestellte Frage ist z.B. die Identifikation ähnlicher Sequenzen zu einer bisher unbekannten Sequenz. Diese Aufgabe kann schneller durchgeführt werden, wenn nur ein Sequenzvergleich pro Gruppe (Cluster) im Gegensatz zu einem Sequenzvergleich pro Datenbanksequenz durchgeführt werden muss. Der Informationsgehalt des gefundenen Clusters ist zudem höher, da sämtliche Informationen der im Cluster enthaltenen Sequenzen herangezogen werden. Darüber hinaus kann eine geclusterte Sequenzdatenbank die Auswahl von Kandidaten für die zeit- und kostenintensive Strukturbestimmung erleichtern. Ferner können die Sequenzen eines Clusters direkt zur Analyse ihrer evolutionären Beziehung herangezogen werden. Die biologisch sinnvolle Gruppierung von Proteinsequenzen kann auf der Basis von Sequenzähnlichkeit erfolgen. Eine der einfachsten und häufig verwendeten Methoden hierzu ist Single-Linkage Clustering. Ausgehend von einem Paar von Datenpunkten mit größter Ähnlichkeit werden sukzessive Datenpunkte bzw. bereits erzeugte Cluster zusammengefasst. Die resultierende Hierarchie kann auch als Baum betrachtet werden. Die Blätter entsprechen hierbei den Datenpunkten, während die Wurzel ein großes Cluster mit allen Datenpunkten bildet. Alle Ebenen dazwischen entsprechen Clustermengen an verschiedenen Ähnlichkeitsstufen. Es ist jedoch nicht klar, welche dieser Ebenen einer sinnvollen Gruppierung der Daten entspricht bzw. ob es überhaupt eine Ebene gibt, die alle Daten sinnvoll gruppiert. In dieser Arbeit werden verschiedene Methoden zur automatischen Gruppierung großer Proteinsequenzdatenmengen präsentiert und evaluiert. Zunächst wird basierend auf der iterativen Datenbanksuchmethode SYSTERS (SYSTEmatic Re-Searching) eine mengentheoretische Clusterung (SYSTERS1) abgeleitet. Die nachfolgende Methode SYSTERS2 ändert die Sicht der Daten auf einen graph-basierten Ansatz. Hierbei liegt der Schwerpunkt zunächst auf der Verbesserung der Qualität der Eingabedaten, insbesondere der paarweisen Distanzen der Sequenzen. Darauf aufbauend wird dann ein Single-Linkage Clustering an verschiedenen statischen Schwellwerten durchgeführt. Es stellt sich heraus, dass es keinen eindeutigen Schwellwert für alle Proteinfamilien gibt, da der Grad an Sequenzähnlichkeit innerhalb verschiedener Proteinfamilien stark variiert. Aufgrund dieses Ergebnisses wurde die ebenfalls graph-basierte Methode SYSTERS3 entwickelt, die eine Gruppierung der Sequenzdaten in Superfamilien- und Familien-Cluster erzeugt. Hierbei werden aufgrund der inneren Struktur des Single-Linkage Baumes zunächst Superfamilien abgeleitet. Für jede Superfamilie wird anschließend der entsprechende Distanzgraph an geeigneten Stellen weiter in Familien-Cluster getrennt. SYSTERS3 ist damit völlig unabhängig von statischen benutzerdefinierten Schwellwerten. Der zweite Teil der Arbeit widmet sich der Rekonstruktion der Phylogenese der Wirbeltiere. Um verschiedene Hypothesen über weitreichende Gen- bzw. Genomduplikationen auf dem Weg zu den Wirbeltieren testen zu können, bedarf es zunächst wohl-separierter Proteinfamilien, die jeweils nur einen Repräsentanten in den Wirbellosen haben. Als Grundlage dienen hier die vorhergesagten Proteinsequenzen der komplett sequenzierten Genome von Fruchtfliege, Fadenwurm und Bäckerhefe. Im Gegensatz zu anderen Ansätzen ist die hier entwickelte Methode des weiteren in der Lage, auch Datensätze nicht komplett zur Verfügung stehender Genome einzubinden (z.B. Mensch, Maus, Ratte, Lanzettfischchen). Die resultierende Clustermenge COPSE (Clusters of Orthologous and Paralogous SEquences) bildet eine hilfreiche Basis zur Analyse der Wirbeltierevolution sowie zur funktionellen Annotation. Beide Clustermengen wurden zusammen mit weiteren Informationen im Internet zur Verfügung gestellt.
Stichworte
Molekülbibliothek , Proteine , Aminosäurensequenz , Numerische Taxonomie , Sequenzdatenbanken , Proteinfamilien , Hierarchische Clusterung , Wirbeltierevolution ,
Jahr
2002
Page URI
https://pub.uni-bielefeld.de/record/2305597

Zitieren

Krause A. Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University; 2002.
Krause, A. (2002). Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University.
Krause, Antje. 2002. Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University.
Krause, A. (2002). Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University.
Krause, A., 2002. Large scale clustering of protein sequences, Bielefeld (Germany): Bielefeld University.
A. Krause, Large scale clustering of protein sequences, Bielefeld (Germany): Bielefeld University, 2002.
Krause, A.: Large scale clustering of protein sequences. Bielefeld University, Bielefeld (Germany) (2002).
Krause, Antje. Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University, 2002.
Alle Dateien verfügbar unter der/den folgenden Lizenz(en):
Copyright Statement:
Dieses Objekt ist durch das Urheberrecht und/oder verwandte Schutzrechte geschützt. [...]
Volltext(e)
Access Level
OA Open Access
Zuletzt Hochgeladen
2019-09-06T08:57:49Z
MD5 Prüfsumme
14cc1142ed152b79e2be5b22fed0db6f

Automatisch aus der Originaldatei erzeugtes PDF
Name
Access Level
OA Open Access
Zuletzt Hochgeladen
2023-08-03T15:13:19Z
MD5 Prüfsumme
8f5412ed5b22b34c15d2b731f3f9d683

Export

Markieren/ Markierung löschen
Markierte Publikationen

Open Data PUB

Suchen in

Google Scholar