Proteinfamilie

Proteinfamilie bezeichnet eine Gruppe von strukturell ähnlichen Proteinen, die zueinander in evolutionärem Zusammenhang stehen und in entsprechenden Genfamilien codiert sind. Die Bezeichnungen Genfamilie und Proteinfamilie werden meist synonym verwendet, je nachdem ob die Homologie in Bezug auf Genom und DNA (Gene) oder auf der Ebene der Genexpression, Biosynthese und biologischen Funktion (Proteine) betrachtet wird.

Eine Klassifizierung von Proteinen in Familien aufgrund ihrer Aminosäuresequenz und der Architektur der sequenzinternen Proteindomänen hilft beim theoretischen Verständnis der evolutionären Entstehung dieser Proteinfamilien und hat praktische Anwendungen in der Biotechnologie und Diagnostik.

Grundlagen

Evolution von Proteinfamilien

Die Erweiterung einer Proteinfamilie – oder die Entstehung einer neuen Familie – kann auf verschiedene Weisen geschehen; unterschiedliche Mechanismen schließen sich dabei nicht gegenseitig aus:

Hauptartikel: Homologie (Genetik)

Entstehung homologer Gene Zwei Populationen derselben Spezies werden z.B. geografisch getrennt und entwickeln sich unabhängig voneinander. Im Genom der Nachkommen treten Mutationen auf, die bei der Expression zu veränderten Proteinen führen (z.B. Veränderung der Primärstruktur, was wiederum die Stabilität und Funktion des Proteins beeinflusst). In Abhängigkeit von den unterschiedlichen Lebensbedingungen werden diese Mutationen auf natürliche Weise selektioniert. Dadurch etabliert sich mit der Zeit in dieser Subpopulation das Gen, das für ein Protein mit leicht veränderten Eigenschaften codiert. Diese Gendrift führt in einer der beiden getrennten Spezies zu einer homologen Proteinvariante dieser Proteinfamilie oder – nach weiterer und längerer Veränderung – zu einer orthologen Proteinfamilie mit meist immer noch ähnlicher Aminosäuresequenz.

Entstehung paraloger Gene Eine weitere Möglichkeit ist die Veränderung eines Gens durch komplette oder partielle Genverdopplung (oder Vervielfachung). Dabei entsteht eine Kopie des Gens; es resultiert ein Gen-Cluster mit paralogen Sequenzen. Da eines der Gene noch immer in der Lage ist, seine ursprüngliche Funktion zu erfüllen, kann das andere divergieren. Durch weitere Mutationen können sich neue Funktionen in den daraus resultierenden Proteinen bilden.

Manche Gen- und Proteinfamilien haben im Laufe der Evolution durch eine Gen- oder Genomduplikation „Ausdehnung“ erfahren (z.B. eine Opsin-Genverdoppelung auf dem X-Chromosom bei Altweltaffen).

Verwendung von Bezeichnungen

Proteinfamilie, sehr eng gefasst: Die menschliche Cyclophilin-Proteinfamilie. Verschiedene „Familienmitglieder“ sind durch die leicht unterschiedlichen Strukturen ihrer Isomerase-Domänen repräsentiert.

Die Bezeichnung Proteinfamilie wird in der Literatur nicht einheitlich, sondern kontextabhängig verwendet. Proteinfamilie kann mehrere sehr große Gruppen von Proteinen mit einem niedrigst möglichen Niveau mathematisch nachweisbarer Sequenzhomologie (und damit verbunden sehr unterschiedlichen biologischen Funktionen) umfassen oder aber auf sehr eng gefasste Gruppen von Proteinen bezogen werden, die – miteinander verglichen – fast identische Sequenzen, dreidimensionale Strukturen und Funktionen besitzen.

Als Margaret Oakley Dayhoff Mitte der 1970er Jahre die Systematik der Proteinsuperfamilie (engl. protein superfamily) einführte, waren nur 493 Proteinsequenzen bekannt. Es waren meist kleine Proteine mit nur einer Proteindomäne wie Myoglobin, Hämoglobin, und Cytochrom c, die von Dayhoff und Mitarbeitern in 116 Superfamilien eingeteilt wurden. Die Bezeichnungen Superfamilie > Familie > Subfamilie erlaubten eine Abstufung und es wurden zahlenbezogene Definitionen dafür angegeben.[1][2]

Parallel wurden über die Jahre auch andere Begriffe wie Proteinklasse (protein class), Proteingruppe (protein group) und Proteinunterfamilie geprägt und verwendet. Auch diese Bezeichnungen werden je nach dem Zusammenhang mehrdeutig verwendet.

Bedeutung des Verständnisses von Proteinfamilien

Die Gesamtzahl der direkt – oder über die Gene indirekt – sequenzierten Proteine von Lebewesen und Viren steigt stetig an und erfordert eine auf den biologischen Gegebenheiten beruhende, sinnvolle Strukturierung und Klassifizierung. Einige Wissenschaftler geben die Zahl von Proteinfamilien mit mindestens 60.000 an.

Einerseits besteht ein theoretisches Interesse am immer besseren Verständnis, wie sich verschiedene Gene – und die Funktionen der so codierten Proteine – im Lauf der Evolution verändert und entwickelt haben, andererseits gibt es ganz konkrete Anwendungen, bei denen die Kenntnis der Zusammenhänge zwischen Proteinfamilien und Domänenarchitektur eine wichtige Rolle spielen. Beispiele sind die enzymatische Synthese in der industriellen Biotechnologie, die Entwicklung von neuen Impfstoffen aus „maßgeschneiderten“ rekombinanten Proteinen, oder der Bereich der medizinischen Analytik (Proteomik).

Sequenzvergleiche durch phylogenetische und Clusteranalyse erlauben eine Zuordnung von Proteinen in Familien und die Zuordnung dieser in übergeordnete Superfamilien. Aus diesen Zuordnungen lassen sich theoretische Erwägungen bei neu entdeckten Proteinen bezüglich ihrer potentiellen Sekundär- und Tertiärstruktur machen und sie eröffnen mögliche Ansätze zur Aufklärung von noch unbekannten Funktionen.

Klassifizierungssysteme

Es gibt mehrere Systeme für die Klassifizierung von Proteinfamilien, die sich im Ansatz und der Systematik unterscheiden. Eines dieser Systeme wird im Detail beschrieben.

PIRSF-Klassifizierung

Die Datenbank Universal Protein Resource (UniProt), die aus dem 2002 erfolgten Zusammenschluss der Datenbanken TrEMBL des European Bioinformatics Institute (EBI), Swiss-Prot des Swiss Institute of Bioinformatics (SIB) und der Protein Information Resource (PIR) des Georgetown University Medical Center (GUMC), entstand, vertritt das PIR-Superfamily-Klassifizierungssystem (PIRSF).

Terminologie

Anfänglich war die auf den Arbeiten von Dayhoff basierende PIR-Klassifizierung in Superfamilie, Familie und Subfamilie linear hierarchisch strukturiert: Ein Protein konnte und durfte nur einer einzigen Proteinfamilie zugeordnet werden und diese nur einer einzigen Superfamilie. Dieses System musste revidiert werden, als mehr und mehr Primärstrukturen (durch die direkte Sequenzierung von gereinigten Proteinen, aber vor allem durch das Ablesen der in sequenzierten Genen codierten Proteine) bekannt wurden. Man erkannte, dass es Proteine gab, die strukturell eher einfach aufgebaut waren und andere, die über sehr komplexe Strukturen verfügten:

Ab 1993 unterschied PIR deshalb zwischen homöomorphen Superfamilien (engl. homeomorphic superfamilies) und Domänen-Superfamilien (engl. domain superfamilies).

Regeln

Das PIRSF-System basiert auf folgenden Regeln:

Beispiele von Protein(Super)familien

In der Folge findet sich eine unvollständige Auflistung von Proteinfamilien und -superfamilien.

Anmerkungen

  1. Jahreshefte der Gesellschaft für Naturkunde in Württemberg, Bände 130–132, (1975), Seite 18: Proteinunterfamilie, mit weniger als 20 % Differenzen; Proteinfamilie, mit weniger als 50 % Differenzen; Proteingroßfamilie, hierzu gehören alle Proteine, deren Ähnlichkeit mit einer Wahrscheinlichkeit von über 99,9 % nicht zufällig ist, wobei die Zahl der übereinstimmenden Aminosäuren auch kleiner als 50 % sein kann.
  2. Detlev Ganten und Klaus Ruckpaul: Grundlagen der Molekularen Medizin, Springer (2007), Seite xxxi: Proteinfamilie, Gruppe von Proteinen mit mindestens 50 % Sequenzidentität; Proteinsuperfamilie, Gruppe von Proteinen mit signifikanter Ähnlichkeit untereinander, aber weniger als 50 % Sequenzidentität.
  3. In der Domänenarchitektur können leichte Variationen auftreten, z.B. Wiederholung derselben Domäne oder bei „Hilfsdomänen“ (engl. auxiliary domains), die oft relativ leicht erworben, verschoben, ersetzt oder wieder verloren werden können.
Trenner
Basierend auf einem Artikel in: Extern Wikipedia.de
Seitenende
Seite zurück
© biancahoegel.de
Datum der letzten Änderung: Jena, den: 20.07. 2024