Large scale clustering of protein sequences

Krause, Antje

Large scale clustering of protein sequences

Krause A (2002)
Bielefeld (Germany): Bielefeld University.

Bielefelder E-Dissertation | Englisch

Download

Dissertation.ps

URN

urn:nbn:de:hbz:361-3146

Autor*in

Krause, Antje

Gutachter*in / Betreuer*in

Giegerich, Robert (Prof. Dr.)

Einrichtung

Technische Fakultät > AG Praktische Informatik

Alternativer Titel

Clusterung großer Proteinsequenzdatenmengen

Abstract / Bemerkung

Mit dem enormen Wachstum biologischer Sequenzdatenbanken wird die Verarbeitung dieser Daten mehr und mehr zum Problem. Proteinsequenzdatenbanken enthalten heute über eine halbe Million verschiedener Sequenzen. Es ist daher naheliegend, eine Gruppierung evolutionär verwandter Sequenzen durchzuführen. Dies bietet viele Vorteile. Eine häufig gestellte Frage ist z.B. die Identifikation ähnlicher Sequenzen zu einer bisher unbekannten Sequenz. Diese Aufgabe kann schneller durchgeführt werden, wenn nur ein Sequenzvergleich pro Gruppe (Cluster) im Gegensatz zu einem Sequenzvergleich pro Datenbanksequenz durchgeführt werden muss. Der Informationsgehalt des gefundenen Clusters ist zudem höher, da sämtliche Informationen der im Cluster enthaltenen Sequenzen herangezogen werden. Darüber hinaus kann eine geclusterte Sequenzdatenbank die Auswahl von Kandidaten für die zeit- und kostenintensive Strukturbestimmung erleichtern. Ferner können die Sequenzen eines Clusters direkt zur Analyse ihrer evolutionären Beziehung herangezogen werden. Die biologisch sinnvolle Gruppierung von Proteinsequenzen kann auf der Basis von Sequenzähnlichkeit erfolgen. Eine der einfachsten und häufig verwendeten Methoden hierzu ist Single-Linkage Clustering. Ausgehend von einem Paar von Datenpunkten mit größter Ähnlichkeit werden sukzessive Datenpunkte bzw. bereits erzeugte Cluster zusammengefasst. Die resultierende Hierarchie kann auch als Baum betrachtet werden. Die Blätter entsprechen hierbei den Datenpunkten, während die Wurzel ein großes Cluster mit allen Datenpunkten bildet. Alle Ebenen dazwischen entsprechen Clustermengen an verschiedenen Ähnlichkeitsstufen. Es ist jedoch nicht klar, welche dieser Ebenen einer sinnvollen Gruppierung der Daten entspricht bzw. ob es überhaupt eine Ebene gibt, die alle Daten sinnvoll gruppiert. In dieser Arbeit werden verschiedene Methoden zur automatischen Gruppierung großer Proteinsequenzdatenmengen präsentiert und evaluiert. Zunächst wird basierend auf der iterativen Datenbanksuchmethode SYSTERS (SYSTEmatic Re-Searching) eine mengentheoretische Clusterung (SYSTERS1) abgeleitet. Die nachfolgende Methode SYSTERS2 ändert die Sicht der Daten auf einen graph-basierten Ansatz. Hierbei liegt der Schwerpunkt zunächst auf der Verbesserung der Qualität der Eingabedaten, insbesondere der paarweisen Distanzen der Sequenzen. Darauf aufbauend wird dann ein Single-Linkage Clustering an verschiedenen statischen Schwellwerten durchgeführt. Es stellt sich heraus, dass es keinen eindeutigen Schwellwert für alle Proteinfamilien gibt, da der Grad an Sequenzähnlichkeit innerhalb verschiedener Proteinfamilien stark variiert. Aufgrund dieses Ergebnisses wurde die ebenfalls graph-basierte Methode SYSTERS3 entwickelt, die eine Gruppierung der Sequenzdaten in Superfamilien- und Familien-Cluster erzeugt. Hierbei werden aufgrund der inneren Struktur des Single-Linkage Baumes zunächst Superfamilien abgeleitet. Für jede Superfamilie wird anschließend der entsprechende Distanzgraph an geeigneten Stellen weiter in Familien-Cluster getrennt. SYSTERS3 ist damit völlig unabhängig von statischen benutzerdefinierten Schwellwerten. Der zweite Teil der Arbeit widmet sich der Rekonstruktion der Phylogenese der Wirbeltiere. Um verschiedene Hypothesen über weitreichende Gen- bzw. Genomduplikationen auf dem Weg zu den Wirbeltieren testen zu können, bedarf es zunächst wohl-separierter Proteinfamilien, die jeweils nur einen Repräsentanten in den Wirbellosen haben. Als Grundlage dienen hier die vorhergesagten Proteinsequenzen der komplett sequenzierten Genome von Fruchtfliege, Fadenwurm und Bäckerhefe. Im Gegensatz zu anderen Ansätzen ist die hier entwickelte Methode des weiteren in der Lage, auch Datensätze nicht komplett zur Verfügung stehender Genome einzubinden (z.B. Mensch, Maus, Ratte, Lanzettfischchen). Die resultierende Clustermenge COPSE (Clusters of Orthologous and Paralogous SEquences) bildet eine hilfreiche Basis zur Analyse der Wirbeltierevolution sowie zur funktionellen Annotation. Beide Clustermengen wurden zusammen mit weiteren Informationen im Internet zur Verfügung gestellt.

Stichworte

Molekülbibliothek , Proteine , Aminosäurensequenz , Numerische Taxonomie , Sequenzdatenbanken , Proteinfamilien , Hierarchische Clusterung , Wirbeltierevolution ,

Jahr

2002

Page URI

https://pub.uni-bielefeld.de/record/2305597

Zitieren

Krause A. Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University; 2002.

Krause, A. (2002). Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University.

Krause, Antje. 2002. Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University.

Krause, A. (2002). Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University.

Krause, A., 2002. Large scale clustering of protein sequences, Bielefeld (Germany): Bielefeld University.

A. Krause, Large scale clustering of protein sequences, Bielefeld (Germany): Bielefeld University, 2002.

Krause, A.: Large scale clustering of protein sequences. Bielefeld University, Bielefeld (Germany) (2002).

Krause, Antje. Large scale clustering of protein sequences. Bielefeld (Germany): Bielefeld University, 2002.

Alle Dateien verfügbar unter der/den folgenden Lizenz(en):

Copyright Statement:

Dieses Objekt ist durch das Urheberrecht und/oder verwandte Schutzrechte geschützt. [...]

Volltext(e)

Name

Dissertation.ps

Access Level

Open Access

Zuletzt Hochgeladen

2019-09-06T08:57:49Z

MD5 Prüfsumme

14cc1142ed152b79e2be5b22fed0db6f

Automatisch aus der Originaldatei erzeugtes PDF

Name

Dissertation.pdf 957.98 KB

Access Level

Open Access

Zuletzt Hochgeladen

2023-08-03T15:13:19Z

MD5 Prüfsumme

8f5412ed5b22b34c15d2b731f3f9d683

Export

Markieren/ Markierung löschen
Markierte Publikationen

Open Data PUB

Suchen in

Google Scholar

PUB - Publikationen an der Universität Bielefeld

Large scale clustering of protein sequences

Zitieren