Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | hrodgar-radmer |
View: | 104 times |
Download: | 0 times |
7. Vorlesung WS 2005/06
Softwarewerkzeuge 1
V7: Aufklärung von Proteinstrukturen in der nahen Zukunft
Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem
mit neuen Faltungsmustern („folds“) aufklären.
Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung.
Definition von Folds: siehe V6
Homologiemodellierung der Strukturen aller verwandten Proteine unter
Verwendung der bekannten 3D-Strukturen als Vorlagen.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 2
Analyse einer unbekannten Sequenz
Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen
Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?
Vorhersage der Sekundärstruktur
Kann man Funktionzuordnen?
Modellierung der Proteinstruktur durch Homologiemodellierung
Ab inito Vorhersage der Tertiärstruktur
Zuordnung eines Protein-Folds
Multiples Sequenzalignment
Input: neue Proteinsequenz
Alignment der Sekundärstrukturen.
Erkenne Domänen
Analyse dieses Folds, Nachbarn?
ExperimentelleDaten vorhanden?
3D-Proteinstruktur
Alignment der Sequenzmit einer Target-Struktur
Fold erkannt?
Nein
Ja
Nein
Ja
Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 3
Integrative DatenbankanalyseIntegrative database analysis in
structural genomics
M. Gerstein, Nat. Struct. Biol. 7, 960
(2000)
10 most common folds in yeast genome (= number ofgene duplications); table shows ranking according to various measures. It shows how common popular folds in yeast occur in othergenomes and in the PDB data base; variety of functions; level of expression.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 4
Integrative Datenbankanalyse
Gibt es Faltungsmuster, die es nur in bestimmten phylogenetischen
Gruppen gibt?
Diese Proteine könnte gute Targets für selektive Inhibitoren sein.
Die vorangehende Abbildung zeigt, dass bestimmte Faltungsmuster in allen
Organismen vorkommen.
Das Ziel von structural genomics könnte nun sein, die Lücken zwischen den
bekannten Regionen zu füllen.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 5
Beziehung zwischen Fold, Funktion, und WWs
Integrative database analysis in structural
genomics
M. Gerstein, Nat. Struct. Biol. 7, 960 (2000)
- die meisten Proteine derselben
Proteinfaltung haben dieselbe
(oder eine von zwei) Funktionen
Kenntnis des “folds”
ermöglicht oft
Funktionszuordnung!
“fold prediction” alleine ist
bereits sehr wertvoll.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 6
Proteinstrukturmodellierung für Structural Genomics
Protein structure modeling for structural genomics.
R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)
Grad an Sequenzidentität
zwischen den bekannten
Proteinstrukturen und den
Proteinen von M. Genitalium. Für
333 von 479 Sequenzen konnte
mindestens für ein Stück von 30
Residuen ein Modell erstellt oder
ein Fold zugeordnet werden.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 7
Modellierung von Proteinstrukturen
Protein structure modeling for structural genomics.
R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 8
Homologie/Komperative Modellierung
Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)
Qualität der Modellierung
hängt von Sequenzidentität
mit Vorlage ab.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 9
Genomweite Strukturmodellierung
R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)
Effekt des Wachstums der PDB-
Datenbank auf die Zahl der Protein des
Bakteriums M. Genitalium, deren Fold
und Struktur im jeweiligen Jahr
vorhergesagt werden konnte.
Homologie-Modellierung ist nicht
aufwendig, dauert pro Struktur nur
wenige Minuten.
Akkurate Modellierung von Loops und
Seitenketten kann jedoch erheblich
aufwendiger sein.
Grün: Proteine mit Modell oder fold assignment
aus PSI-BLAST für mindestens 30 ihrer
Residuen.
Blau: nur Modell
Rot: Anteil der Residuen des Genoms, die in
Modell oder fold assignment vorkommen.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 10
Schliesse von Struktur auf Funktion?
From structure to function: Approaches and limitations
J. M. Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 11
Faltung homologe Superfamilie Funktion
From structure to function: Approaches and limitations J. M.
Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Verteilung homologer Superfamilien in CATH
Klassifizierung von Proteinstrukturen.
Obwohl manche Folds sehr unterschiedliche
Funktionen ausüben können, enthalten 556
Folds jeweils nur eine homologe Superfamilie.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 12
Faltung homologe Superfamilie Funktion
From structure to function: Approaches and limitations J.
M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Konservierung von Enzymfunktion (durch EC-
Nummer definiert) innerhalb einer homologen
Superfamilie ist relativ gut erfüllt. Dennoch
gibt es eine Reihe von absoluten
Ausnahmen.
Ähnlichkeit der Enzymfunktion
7. Vorlesung WS 2005/06
Softwarewerkzeuge 13
Faltung homologe Superfamilie Funktion
From structure to function: Approaches and limitations J.
M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Diversität der Enzymfunktion in
der Familie der Typ1-
Aspartat-Aminotransferasen:
gezeigt sind die verschiedenen
EC-Klassifizierungen von
Mitgliedern dieser Superfamilie.
Dies ist ein Beispiel für eine der
wenigen Superfamilien, bei denen
die Zuordnung
Fold Funktion
nicht eindeutig ist.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 14
Aktives Zentrum der Aspartat Proteasen
From structure to function: Approaches and limitations J.
M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Kristallstruktur des
menschlichen Pepsins.
Beide Domänen steuern
Residuen für aktives Zentrum
bei.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 15
From structure to function: Approaches and limitations J.
M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Superposition der Residuen
des aktiven Zentrums in 18
unterschiedlichen Aspartat-
Protease Proteinfamilien
das aktive Zentrum der
Aspartat-Protease kann durch
die Position von 8 Atomen
beschrieben werden.
Aktives Zentrum der Aspartat Proteasen
7. Vorlesung WS 2005/06
Softwarewerkzeuge 16
Genomweite Sequenzanalyse bzw. Sequenzvergleich:Auswahl der Target-Proteine
Completeness in structural genomics
D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)
Genauigkeit der CASP
Proteinstrukturen als Funktion
der Sequenzidentität von Ziel
und Vorlage.
Sobald die Identität unter 30%
sinkt, nimmt die Abweichung
der Modelle von der korrekten
exp. Struktur schnell zu.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 17
Completeness in structural genomics
D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)
Korrektheit von Alignments
Die Hauptursache für diesen
Effekt sind Fehler im
Alignment von Zielprotein und
Vorlage.
Hier ist der Anteil der korrekt
alignierten Residuen gezeigt
(bewertet anhand der 3D-
Struktur).
7. Vorlesung WS 2005/06
Softwarewerkzeuge 18
Strukturelle Abdeckung der Sequenzdatenbanken
Zahl an (Struktur-)Modellen,
die korrekt erzeugt werden
können als Funktion der
Sequenzidentität (x-Achse)
und des passenden
Sequenzabschnitts (y-Achse).
Der rechte-obere Quadrant
umfasst 19% aller Proteine in
Swissprot+TrEMBL, für die
eine zuverlässige Vorlage in
der PDB-Datenbank existiert.
Completeness in structural genomics
D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 19
Strukturelle Information für gesamte Genome
Completeness in structural genomics.
Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 20
Strukturelle Abdeckung der ras-Proteinfamilie
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
Ras-Proteine in Hefe. Der
Abstand zwischen den
Proteinen entspricht
100% - Sequenzidentität.
Mit 1 Struktur (YPT6) kann
man alle Proteine aufgrund
von 20% Identität
modellieren (grüner Kreis),
mit 5 Strukturen alle mit
30% Identität (rote Kreise).
7. Vorlesung WS 2005/06
Softwarewerkzeuge 21
Wie viele Proteinstrukturen werden benötigt?
Geplante Modellierung
aller Nichtmembran-
proteine.
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 22
Wie viele Strukturen werden praktisch benötigt?
Wie gut ist die strukturelle
Abdeckung, wenn man
Erfolgsraten von 100% (1:1)
bis runter zu 10% (1:10) für
die Kristallisationsprojekte
ansetzt?
Man kann auch für geringere
Erfolgsraten eine ähnlich gute
Abdeckung erwarten!
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 23
Blau: optimale Auswahl der
Targetproteine
Grün: Targetproteine werden
zufällig ausgewählt. Man
benötigt 7 x mehr Strukturen
um 90% Abdeckung zu
erreichen.
Rot: Auswahl ebenfalls
zufällig unter der Bedingung,
dass die Ähnlichkeit zu allen
anderen Strukturen < 30%
liegt.
Auswahl der zu kristallisierenden Proteine
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 24
Genomweite Sequenzanalyse bzw. Sequenzvergleich
Etwa die Hälfte aller Sequenzen und damit etwa ein
Viertel aller Residuen in bekannten Genomen kann
einer der 2000 bekannten Pfam Proteinfamilien
zugeordnet werden. Daher erwarten wir ca. 8000
Proteinfamilien. Für die strukturelle Abdeckung der
2000 bekannten Proteinfamilien zu 90% sind etwa 4000
Proteinstrukturen notwendig. Damit sind bei optimaler
Auswahl der Targetproteine 16000 Strukturbestim-
mungen notwendig.
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 25
Methode zur Fold-Erkennung: Threading
• Gegeben:
– Sequenz:
IVACIVSTEYDVMKAAR…
– Ein Datenbank von möglichen
Proteinstrukturen (“folds”)
• Bilde die Sequenz auf jeden fold ab
• Bestimme anhand einer
Bewertungsfunktion, welcher Fold am
besten zu dieser Sequenz passt.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 26
Bryngelson, Wolynes, PNAS
(1987)
Gradient Rauhigkeit
beschleunigt bremst
Faltung Faltung
“Frustration”
„New view of protein folding“:Faltung entlang trichterähnlichen Energielandschaften
Brooks, Gruebele, Onuchic, Wolynes,
PNAS 95, 11037 (1998)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 27
Fold Optimierung
• Einfache Gittermodelle (HP-Modelle)
– Zwei Sorten von Seitenketten:
hydrophob und polar
– 2-D oder 3-D Gitter
– Treibende Kräfte:
hydrophober Kollaps – es ist günstig,
Kontakte zwischen hydropoben
Seitenketten zu bilden
– Bewertung = Anzahl an HH Kontakten
7. Vorlesung WS 2005/06
Softwarewerkzeuge 28
HP-Gittermodelle
Ken Dill ~ 1997
Vorteil solch einfacher Modelle:man kann den Konformationsraum systematisch absuchen.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 29
Simulating the folding process
How long does protein folding take?
What timescale can we bridge by MD simulations?
Can we simulate a folding process?
7. Vorlesung WS 2005/06
Softwarewerkzeuge 30
Folding simulations
Can one simulate a folding process by MD simulations?
1998 1 s simulation of 36-residue villin headpiece
exp. folding time: between 10 – 100 s, Tm = 70 C
- contains 3 short helices (NMR) connected by loop and turn
- closely packed hydrophobic core
4 months of CPU time on 256 processor Cray T3D and T3E
7. Vorlesung WS 2005/06
Softwarewerkzeuge 31
Folding of villin headpiece
unfolded partially folded native structures
Duan & Kollman, Science 282, 740 (1998)
comparison of native (red) most stable cluster
and most stable cluster (blue)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 32
Folding of villin head piece
(A) fractional helical content (C) Radius of gyration and RMSD from native
(B) fractional native content (D) solvation free energy (Eisenberg params)
Duan & Kollman, Science 282, 740 (1998)
7. Vorlesung WS 2005/06
Softwarewerkzeuge 33
Homologie-basierte Proteinmodellierung (SwissModel)
• Methode: Wissensbasierter Ansatz.
• Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins,
• Prozedur:
• Superposition der verwandten 3D-Strukturen
• Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz.
• Generierung eines Frameworks für die neue Sequenz.
• Konstruiere fehlende Loops.
• Vervollständige und korrigieren das Proteinrückgrat.
• Korrigiere die Seitenketten.
• Überprüfe die Qualität der modellierten Struktur und deren Packung.
• Strukturverfeinerung durch Energieminimierung und Moleküldynamik.www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 34
Überlagerung der 3D-Strukturen
Regionen mit Sequenzähnlichkeit werden automatisch ausgewählt und ihre
Residuen in 3D überlagert.
Diese erste Auswahl wird weiter verfeinert.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 35
(a) Für alle Atome, die eine ähnliche Position besitzen und vermutlich eine
strukturelle Entsprechung in der neuen Struktur besitzen, werden gemittelte
Positionen als Framework-Koordinaten bestimmt.
(b) Seitenketten mit völlig inkorrekter Geometrie werden entfernt.
(c) Matrix mit Gewichten für lokale Ähnlichkeit.
3D Framework für die neue Sequenz
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 36
Basierend auf den Verankerungen der Loops werden
(a) wird eine Datenbank bekannter Loopfragmente in der PDB-Datenbank
durchsucht.
Für den neuen Loop verwendet man entweder das am besten passende
Fragment oder ein Framework aus den 5 besten Fragmenten.
(b) Der Torsionsraum der Loopresiduen wird durchsucht
- 7 erlaubte Kombinationen der - Winkel
- benötigter Raum für den gesamten Loop
Konstruktion fehlender Loops
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 37
Rekonstruktion von fehlendem Proteinrückgrat
Das Rückgrat wird auf der Grundlage von
C -Positionen konstruiert.
- 7 Kombinationen der - Winkel sind
erlaubt.
- Durchsuche Datenbank für Backbone-
Fragmente mit Fenster aus 5 Residuen,
Verwende die Koordinaten der 3 zentralen
Residuen des am besten passenden
Fragments.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 38
Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der
Häufigkeit des Auftretens in der PDB-Datenbank.
- Erst werden verdrehte (aber komplette) Seitenketten korrigiert.
- fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt.
Teste dabei, ob van-der-Waals Überlapps auftreten und ob die
Torsisonswinkel in erlaubten Bereichen liegen.
Konstruktion unvollständiger/fehlender Seitenketten
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 39
Überprüfe die Qualität der 3D-Modelle
Analysiere 3D-Umgebung jeder Seitenkette. Erlaubt die Identifizierung
missgefalteter Regionen.
Auch: WHATCHECK
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 40
Berechne, welche Bereiche des Proteins für eine kleine Probe zugänglich sind
(Connolly-Oberfläche bzw. Kubisches Gitter). Algorithmus entdeckt Oberflächen
innerhalb und ausserhalb des Proteins. Der Vergleich von Grösse und Verteilung
von internen Cavities zwischen Modell und Kristallstruktur-Vorlage erlaubt es,
Fehler im Modell aufzuspüren.
Analyse der Packungsdichte eines atomaren Modells
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 41
Bewertung der Qualität eines Homologiemodells1. Allgemeine Gesichtspunkte
• Ein Modell wird als falsch angesehen, wenn mindestens eines seiner strukturellen Elemente gegenüber dem Rest des Modells falsch angeordnet ist. Dies kann durch ein falsches
Sequenzalignment entstehen.
Das Modell kann dennoch korrekte Stereochemie besitzen.
• Man kann ein Modell als ungenau ansehen wenn seine atomare Koordinaten mehr als 0.5 Å von einer experimentellen Kontrollstruktur abweichen.
• Ungenauigkeiten können auch in der Stereochemie (Bindungslängen und –winkel auftreten). Dies kann leicht mit WhatCheck überprüft werden.
• Statistische Paarpotentiale für die Verteilung von Aminosäuren in bekannten Proteinen erlauben manchmal die Aufspürung von fehlerhaften Modellen.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 42
2. Fehlerquellen
Die Qualität eines Modells hängt von 2 Kriterien ab
1 Seine Korrektheit hängt von der Qualität des Sequenzalignments ab.
2 Seine Genauigkeit wird durch seine Abweichung von einer (zukünftig zu bestimmenden) experimentellen Struktur bestimmt.
Strukturelle Abweichungen haben 2 Ursachen
- der inherente Fehler der Modellierungsprozedur
- durch Umgebung und Methoden der Datenerfassung bewirkte Variationen der experimentellen Strukturen, die als Vorlage verwendet werden.
• Ein durch komparative Methoden abgeleitetes Protein-Modell kann nicht genauer sein als der Unterschied zwischen einer NMR-Struktur und einer Kristallstruktur desselben Proteins.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 43
3 Proteinkern und Loops
Fast jedes Proteinmodell enthält nicht-konservierte Loops, die als die am wenigsten zuverlässigen Teile des Proteinmodells angesehen werden
können.
Andererseits sind diese Bereiche der Struktur oft auch am flexibelsten –
hohe Temperaturfaktoren in Kristallstrukturen oder hohe Unterschiede zwischen verschiedenen (gleichsam gültigen) NMR-Strukturen.
Die Residuen im Proteinkern werden gewöhnlich fast in der identischen Orientierung wie in experimentellen Kontrollstrukturen modelliert.
Residuen an der Proteinoberfläche zeigen grössere Abweichungen.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 44
Einordnung von Proteinmodellen in 3 Kategorien1 Modelle, die auf falschen Alignments zwischen Vorlage und Zielprotein
basieren.
Strategie: konstruiere mehrere Modelle für unterschiedliche Alignments.
Wähle das am besten erscheinende Modell.
2 Modelle, die auf korrekten Alignments beruhen, können für zielgerichtete
Mutagenese-Experimente hilfreich sein.
Sind oft nicht zuverlässig genug für detaillierte Untersuchung von
Ligandenbindung.
3 Modelle, die auf einer hohen Sequenzidentität (> 70%) mit der Vorlage
beruhen. Solche Modelle können in Drug Design Projekten verwendet werden.
Fehler sind jedoch immer, also auch bei sehr hoher Identität möglich.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 45
Test für die Zuverlässigkeit von SwissModell
3DCrunch-Projekt von Expasy zusammen mit SGI. Generiere „Homologie-
Modelle“ für Proteine mit bekannter 3D-Struktur.
Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein.
1200 Kontrolle-Modelle.
Grad der Identität [%] Modell innerhalb von x Å RMSD zur Vorlage
< 1 < 2 < 3 < 4 < 5 > 5
25-29 0 10 30 46 67 33
30-39 0 18 45 66 77 23
40-49 9 44 63 78 91 9
50-59 18 55 79 86 91 9
60-69 38 72 85 91 92 8
70-79 42 71 82 85 88 12
80-89 45 79 86 94 95 5
90-95 59 78 83 86 91 9
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2005/06
Softwarewerkzeuge 46
Zusammenfassung
• Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität
besitzt ca. 1 Å RMSD
• Dies gilt sogar für absolute identische Sequenzen.
• Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt,
den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in
den konstruierten Schleifen.
• Die Wahl der Modellvorlage ist entscheidend!
Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder
Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle,
die von ihnen abgeleitet werden.
• Jeder Fehler im Alignment produziert falsche Modelle!
Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 47
IV The importance of being unfolded?
Anscheinend sind nicht wenige Proteine der Zelle einen Großteil der Zeit teilweise
entfaltet (P.E. Wright, H.J. Dyson, J. Mol. Biol. 293, 321 (1999))
Dies klingt sehr unerwartet. Was wären mögliche biologische Vorteile davon?
(1) Entfaltete Proteine können schneller abgebaut werden
kann für Regulation eines schnellen Zellzyklus erforderlich sein.
(2) Molekulare Erkennung ist schneller, wenn Faltung und Bindung gekoppelt sind
(3) Loopstrukturen können viele biologische Targets erkennen wichtig für Kommunikation und Regulierung bzw. Bildung großer Komplexe?
(4) Entfaltete Proteine können schnell in andere Zellkompartments transportiert
werden.
7. Vorlesung WS 2005/06
Softwarewerkzeuge 48
NORS regions: no regular secondary structure NORS regions are defined to have at least 70
consecutive residues with less than 12%
regular secondary structure (helix or strand).
We found four types of proteins.
(A) Connecting loops: long loops that connect
two domains or chains (shown Formate
Dehydrogenase H, 1AA6). of interactions.
(B) Loopy ends: long N- or C-terminal regions
that lack regular secondary structure (shown
Hexon from adenovirus type 2, 1DHX).
(C) Loopy wraps: long loopy regions wrapping
around globular domains (shown Class II
chitinase, 2BAA.
(D) Loopy domains: entire structures that
have almost no regular secondary structure
(shown extra-cellular domain of T beta RI,
1TBI).
Liu, Tan, Rost, J Mol Biol (2002)
332, 53-64
7. Vorlesung WS 2005/06
Softwarewerkzeuge 49
Many NORS regions predicted in proteomesWe predicted many NORS regions in 31 entirely
sequenced organisms. NORS proteins appeared
particularly abundant in eukaryotes.
(A) gives the percentage of proteins in respective
proteome for which at least one NORS region is
predicted. High enrichment in eukaryotic
proteomes!
(B) illustrates the percentage of all the residues
of the respective proteome for which a NORS
region is predicted.
(C) gives the percentage of all predicted NORS
regions that are between N and N+10 residues
long (note that, by definition, NORS regions are
longer than 70 residues). Surprisingly, almost
15% of all the predicted NORS regions extend
over more than 200 residues (inset of C). Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64
7. Vorlesung WS 2005/06
Softwarewerkzeuge 50
NORS regions use particular amino acidsThe height of the one-letter amino acid code is
proportional to the abundance of the respective
acid in each data set. The actual value is the
difference in occurrence with respect to the
frequency observed in a sequence-unique subset
of PDB:
.
Inverted letters indicate acids that are less
frequent than 'expected'. The amino acids are
sorted by 'flexibility' , with the more rigid ones
on the left. Overall, NORS regions are as
abundant in more flexible residues as loop
regions in PDB . However, we found considerably
more Serine (S), Glutamine (Q), and Glycine (G)
and considerably fewer Arginine (R), Aspartic
acid (D), Glutamic acid (E), Tryptophan (W), and
Phenylalanine (F) in NORS regions than in loop
regions, in general.
Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64
21
21
PP
ppz
7. Vorlesung WS 2005/06
Softwarewerkzeuge 51
Das Prion-Protein PrPc:
ist ein normales zelluläres Glycoprotein- ist an die Plasmamembran über einen
GPI-Anker angehängt - hat 209 Aminosäuren
Seine genaue Funktion ist unbekannt.
Cu2+ Speicherung, Erinnerung?
Struktur aus NMR-Bestimmungen bekannt:
Die N-terminale Region 23-120 ist sehr
flexibel und meist ungeordnet.
C-terminale Region enthält 3 -Helices,
2 kurze -Stränge
PrPc wird schnell durch Proteinase K abgebaut
Prion: ein ungeklärtes Beispiel für misgefaltete Proteine