+ All Categories
Home > Documents > 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft...

7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft...

Date post: 05-Apr-2015
Category:
Upload: hrodgar-radmer
View: 104 times
Download: 0 times
Share this document with a friend
51
7. Vorlesung WS 2005/06 Softwarewerkzeuge 1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem mit neuen Faltungsmustern („folds“) aufklären. Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition von Folds: siehe V6 Homologiemodellierung der Strukturen aller verwandten Proteine unter Verwendung der bekannten 3D-Strukturen als Vorlagen.
Transcript
Page 1: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 1

V7: Aufklärung von Proteinstrukturen in der nahen Zukunft

Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem

mit neuen Faltungsmustern („folds“) aufklären.

Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung.

Definition von Folds: siehe V6

Homologiemodellierung der Strukturen aller verwandten Proteine unter

Verwendung der bekannten 3D-Strukturen als Vorlagen.

Page 2: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 2

Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktionzuordnen?

Modellierung der Proteinstruktur durch Homologiemodellierung

Ab inito Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Target-Struktur

Fold erkannt?

Nein

Ja

Nein

Ja

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

Page 3: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 3

Integrative DatenbankanalyseIntegrative database analysis in

structural genomics

M. Gerstein, Nat. Struct. Biol. 7, 960

(2000)

10 most common folds in yeast genome (= number ofgene duplications); table shows ranking according to various measures. It shows how common popular folds in yeast occur in othergenomes and in the PDB data base; variety of functions; level of expression.

Page 4: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 4

Integrative Datenbankanalyse

Gibt es Faltungsmuster, die es nur in bestimmten phylogenetischen

Gruppen gibt?

Diese Proteine könnte gute Targets für selektive Inhibitoren sein.

Die vorangehende Abbildung zeigt, dass bestimmte Faltungsmuster in allen

Organismen vorkommen.

Das Ziel von structural genomics könnte nun sein, die Lücken zwischen den

bekannten Regionen zu füllen.

Page 5: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 5

Beziehung zwischen Fold, Funktion, und WWs

Integrative database analysis in structural

genomics

M. Gerstein, Nat. Struct. Biol. 7, 960 (2000)

- die meisten Proteine derselben

Proteinfaltung haben dieselbe

(oder eine von zwei) Funktionen

Kenntnis des “folds”

ermöglicht oft

Funktionszuordnung!

“fold prediction” alleine ist

bereits sehr wertvoll.

Page 6: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 6

Proteinstrukturmodellierung für Structural Genomics

Protein structure modeling for structural genomics.

R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Grad an Sequenzidentität

zwischen den bekannten

Proteinstrukturen und den

Proteinen von M. Genitalium. Für

333 von 479 Sequenzen konnte

mindestens für ein Stück von 30

Residuen ein Modell erstellt oder

ein Fold zugeordnet werden.

Page 7: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 7

Modellierung von Proteinstrukturen

Protein structure modeling for structural genomics.

R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Page 8: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 8

Homologie/Komperative Modellierung

Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Qualität der Modellierung

hängt von Sequenzidentität

mit Vorlage ab.

Page 9: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 9

Genomweite Strukturmodellierung

R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Effekt des Wachstums der PDB-

Datenbank auf die Zahl der Protein des

Bakteriums M. Genitalium, deren Fold

und Struktur im jeweiligen Jahr

vorhergesagt werden konnte.

Homologie-Modellierung ist nicht

aufwendig, dauert pro Struktur nur

wenige Minuten.

Akkurate Modellierung von Loops und

Seitenketten kann jedoch erheblich

aufwendiger sein.

Grün: Proteine mit Modell oder fold assignment

aus PSI-BLAST für mindestens 30 ihrer

Residuen.

Blau: nur Modell

Rot: Anteil der Residuen des Genoms, die in

Modell oder fold assignment vorkommen.

Page 10: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 10

Schliesse von Struktur auf Funktion?

From structure to function: Approaches and limitations

J. M. Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Page 11: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 11

Faltung homologe Superfamilie Funktion

From structure to function: Approaches and limitations J. M.

Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Verteilung homologer Superfamilien in CATH

Klassifizierung von Proteinstrukturen.

Obwohl manche Folds sehr unterschiedliche

Funktionen ausüben können, enthalten 556

Folds jeweils nur eine homologe Superfamilie.

Page 12: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 12

Faltung homologe Superfamilie Funktion

From structure to function: Approaches and limitations J.

M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Konservierung von Enzymfunktion (durch EC-

Nummer definiert) innerhalb einer homologen

Superfamilie ist relativ gut erfüllt. Dennoch

gibt es eine Reihe von absoluten

Ausnahmen.

Ähnlichkeit der Enzymfunktion

Page 13: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 13

Faltung homologe Superfamilie Funktion

From structure to function: Approaches and limitations J.

M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Diversität der Enzymfunktion in

der Familie der Typ1-

Aspartat-Aminotransferasen:

gezeigt sind die verschiedenen

EC-Klassifizierungen von

Mitgliedern dieser Superfamilie.

Dies ist ein Beispiel für eine der

wenigen Superfamilien, bei denen

die Zuordnung

Fold Funktion

nicht eindeutig ist.

Page 14: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 14

Aktives Zentrum der Aspartat Proteasen

From structure to function: Approaches and limitations J.

M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Kristallstruktur des

menschlichen Pepsins.

Beide Domänen steuern

Residuen für aktives Zentrum

bei.

Page 15: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 15

From structure to function: Approaches and limitations J.

M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Superposition der Residuen

des aktiven Zentrums in 18

unterschiedlichen Aspartat-

Protease Proteinfamilien

das aktive Zentrum der

Aspartat-Protease kann durch

die Position von 8 Atomen

beschrieben werden.

Aktives Zentrum der Aspartat Proteasen

Page 16: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 16

Genomweite Sequenzanalyse bzw. Sequenzvergleich:Auswahl der Target-Proteine

Completeness in structural genomics

D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Genauigkeit der CASP

Proteinstrukturen als Funktion

der Sequenzidentität von Ziel

und Vorlage.

Sobald die Identität unter 30%

sinkt, nimmt die Abweichung

der Modelle von der korrekten

exp. Struktur schnell zu.

Page 17: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 17

Completeness in structural genomics

D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Korrektheit von Alignments

Die Hauptursache für diesen

Effekt sind Fehler im

Alignment von Zielprotein und

Vorlage.

Hier ist der Anteil der korrekt

alignierten Residuen gezeigt

(bewertet anhand der 3D-

Struktur).

Page 18: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 18

Strukturelle Abdeckung der Sequenzdatenbanken

Zahl an (Struktur-)Modellen,

die korrekt erzeugt werden

können als Funktion der

Sequenzidentität (x-Achse)

und des passenden

Sequenzabschnitts (y-Achse).

Der rechte-obere Quadrant

umfasst 19% aller Proteine in

Swissprot+TrEMBL, für die

eine zuverlässige Vorlage in

der PDB-Datenbank existiert.

Completeness in structural genomics

D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Page 19: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 19

Strukturelle Information für gesamte Genome

Completeness in structural genomics.

Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

Page 20: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 20

Strukturelle Abdeckung der ras-Proteinfamilie

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Ras-Proteine in Hefe. Der

Abstand zwischen den

Proteinen entspricht

100% - Sequenzidentität.

Mit 1 Struktur (YPT6) kann

man alle Proteine aufgrund

von 20% Identität

modellieren (grüner Kreis),

mit 5 Strukturen alle mit

30% Identität (rote Kreise).

Page 21: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 21

Wie viele Proteinstrukturen werden benötigt?

Geplante Modellierung

aller Nichtmembran-

proteine.

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Page 22: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 22

Wie viele Strukturen werden praktisch benötigt?

Wie gut ist die strukturelle

Abdeckung, wenn man

Erfolgsraten von 100% (1:1)

bis runter zu 10% (1:10) für

die Kristallisationsprojekte

ansetzt?

Man kann auch für geringere

Erfolgsraten eine ähnlich gute

Abdeckung erwarten!

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Page 23: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 23

Blau: optimale Auswahl der

Targetproteine

Grün: Targetproteine werden

zufällig ausgewählt. Man

benötigt 7 x mehr Strukturen

um 90% Abdeckung zu

erreichen.

Rot: Auswahl ebenfalls

zufällig unter der Bedingung,

dass die Ähnlichkeit zu allen

anderen Strukturen < 30%

liegt.

Auswahl der zu kristallisierenden Proteine

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Page 24: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 24

Genomweite Sequenzanalyse bzw. Sequenzvergleich

Etwa die Hälfte aller Sequenzen und damit etwa ein

Viertel aller Residuen in bekannten Genomen kann

einer der 2000 bekannten Pfam Proteinfamilien

zugeordnet werden. Daher erwarten wir ca. 8000

Proteinfamilien. Für die strukturelle Abdeckung der

2000 bekannten Proteinfamilien zu 90% sind etwa 4000

Proteinstrukturen notwendig. Damit sind bei optimaler

Auswahl der Targetproteine 16000 Strukturbestim-

mungen notwendig.

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Page 25: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 25

Methode zur Fold-Erkennung: Threading

• Gegeben:

– Sequenz:

IVACIVSTEYDVMKAAR…

– Ein Datenbank von möglichen

Proteinstrukturen (“folds”)

• Bilde die Sequenz auf jeden fold ab

• Bestimme anhand einer

Bewertungsfunktion, welcher Fold am

besten zu dieser Sequenz passt.

Page 26: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 26

Bryngelson, Wolynes, PNAS

(1987)

Gradient Rauhigkeit

beschleunigt bremst

Faltung Faltung

“Frustration”

„New view of protein folding“:Faltung entlang trichterähnlichen Energielandschaften

Brooks, Gruebele, Onuchic, Wolynes,

PNAS 95, 11037 (1998)

Page 27: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 27

Fold Optimierung

• Einfache Gittermodelle (HP-Modelle)

– Zwei Sorten von Seitenketten:

hydrophob und polar

– 2-D oder 3-D Gitter

– Treibende Kräfte:

hydrophober Kollaps – es ist günstig,

Kontakte zwischen hydropoben

Seitenketten zu bilden

– Bewertung = Anzahl an HH Kontakten

Page 28: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 28

HP-Gittermodelle

Ken Dill ~ 1997

Vorteil solch einfacher Modelle:man kann den Konformationsraum systematisch absuchen.

Page 29: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 29

Simulating the folding process

How long does protein folding take?

What timescale can we bridge by MD simulations?

Can we simulate a folding process?

Page 30: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 30

Folding simulations

Can one simulate a folding process by MD simulations?

1998 1 s simulation of 36-residue villin headpiece

exp. folding time: between 10 – 100 s, Tm = 70 C

- contains 3 short helices (NMR) connected by loop and turn

- closely packed hydrophobic core

4 months of CPU time on 256 processor Cray T3D and T3E

Page 31: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 31

Folding of villin headpiece

unfolded partially folded native structures

Duan & Kollman, Science 282, 740 (1998)

comparison of native (red) most stable cluster

and most stable cluster (blue)

Page 32: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 32

Folding of villin head piece

(A) fractional helical content (C) Radius of gyration and RMSD from native

(B) fractional native content (D) solvation free energy (Eisenberg params)

Duan & Kollman, Science 282, 740 (1998)

Page 33: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 33

Homologie-basierte Proteinmodellierung (SwissModel)

• Methode: Wissensbasierter Ansatz.

• Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins,

• Prozedur:

• Superposition der verwandten 3D-Strukturen

• Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz.

• Generierung eines Frameworks für die neue Sequenz.

• Konstruiere fehlende Loops.

• Vervollständige und korrigieren das Proteinrückgrat.

• Korrigiere die Seitenketten.

• Überprüfe die Qualität der modellierten Struktur und deren Packung.

• Strukturverfeinerung durch Energieminimierung und Moleküldynamik.www.expasy.org/swissmodel/SWISS-MODEL.html

Page 34: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 34

Überlagerung der 3D-Strukturen

Regionen mit Sequenzähnlichkeit werden automatisch ausgewählt und ihre

Residuen in 3D überlagert.

Diese erste Auswahl wird weiter verfeinert.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 35: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 35

(a) Für alle Atome, die eine ähnliche Position besitzen und vermutlich eine

strukturelle Entsprechung in der neuen Struktur besitzen, werden gemittelte

Positionen als Framework-Koordinaten bestimmt.

(b) Seitenketten mit völlig inkorrekter Geometrie werden entfernt.

(c) Matrix mit Gewichten für lokale Ähnlichkeit.

3D Framework für die neue Sequenz

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 36: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 36

Basierend auf den Verankerungen der Loops werden

(a) wird eine Datenbank bekannter Loopfragmente in der PDB-Datenbank

durchsucht.

Für den neuen Loop verwendet man entweder das am besten passende

Fragment oder ein Framework aus den 5 besten Fragmenten.

(b) Der Torsionsraum der Loopresiduen wird durchsucht

- 7 erlaubte Kombinationen der - Winkel

- benötigter Raum für den gesamten Loop

Konstruktion fehlender Loops

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 37: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 37

Rekonstruktion von fehlendem Proteinrückgrat

Das Rückgrat wird auf der Grundlage von

C -Positionen konstruiert.

- 7 Kombinationen der - Winkel sind

erlaubt.

- Durchsuche Datenbank für Backbone-

Fragmente mit Fenster aus 5 Residuen,

Verwende die Koordinaten der 3 zentralen

Residuen des am besten passenden

Fragments.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 38: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 38

Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der

Häufigkeit des Auftretens in der PDB-Datenbank.

- Erst werden verdrehte (aber komplette) Seitenketten korrigiert.

- fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt.

Teste dabei, ob van-der-Waals Überlapps auftreten und ob die

Torsisonswinkel in erlaubten Bereichen liegen.

Konstruktion unvollständiger/fehlender Seitenketten

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 39: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 39

Überprüfe die Qualität der 3D-Modelle

Analysiere 3D-Umgebung jeder Seitenkette. Erlaubt die Identifizierung

missgefalteter Regionen.

Auch: WHATCHECK

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 40: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 40

Berechne, welche Bereiche des Proteins für eine kleine Probe zugänglich sind

(Connolly-Oberfläche bzw. Kubisches Gitter). Algorithmus entdeckt Oberflächen

innerhalb und ausserhalb des Proteins. Der Vergleich von Grösse und Verteilung

von internen Cavities zwischen Modell und Kristallstruktur-Vorlage erlaubt es,

Fehler im Modell aufzuspüren.

Analyse der Packungsdichte eines atomaren Modells

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 41: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 41

Bewertung der Qualität eines Homologiemodells1. Allgemeine Gesichtspunkte

• Ein Modell wird als falsch angesehen, wenn mindestens eines seiner strukturellen Elemente gegenüber dem Rest des Modells falsch angeordnet ist. Dies kann durch ein falsches

Sequenzalignment entstehen.

Das Modell kann dennoch korrekte Stereochemie besitzen.

• Man kann ein Modell als ungenau ansehen wenn seine atomare Koordinaten mehr als 0.5 Å von einer experimentellen Kontrollstruktur abweichen.

• Ungenauigkeiten können auch in der Stereochemie (Bindungslängen und –winkel auftreten). Dies kann leicht mit WhatCheck überprüft werden.

• Statistische Paarpotentiale für die Verteilung von Aminosäuren in bekannten Proteinen erlauben manchmal die Aufspürung von fehlerhaften Modellen.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 42: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 42

2. Fehlerquellen

Die Qualität eines Modells hängt von 2 Kriterien ab

1 Seine Korrektheit hängt von der Qualität des Sequenzalignments ab.

2 Seine Genauigkeit wird durch seine Abweichung von einer (zukünftig zu bestimmenden) experimentellen Struktur bestimmt.

Strukturelle Abweichungen haben 2 Ursachen

- der inherente Fehler der Modellierungsprozedur

- durch Umgebung und Methoden der Datenerfassung bewirkte Variationen der experimentellen Strukturen, die als Vorlage verwendet werden.

• Ein durch komparative Methoden abgeleitetes Protein-Modell kann nicht genauer sein als der Unterschied zwischen einer NMR-Struktur und einer Kristallstruktur desselben Proteins.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 43: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 43

3 Proteinkern und Loops

Fast jedes Proteinmodell enthält nicht-konservierte Loops, die als die am wenigsten zuverlässigen Teile des Proteinmodells angesehen werden

können.

Andererseits sind diese Bereiche der Struktur oft auch am flexibelsten –

hohe Temperaturfaktoren in Kristallstrukturen oder hohe Unterschiede zwischen verschiedenen (gleichsam gültigen) NMR-Strukturen.

Die Residuen im Proteinkern werden gewöhnlich fast in der identischen Orientierung wie in experimentellen Kontrollstrukturen modelliert.

Residuen an der Proteinoberfläche zeigen grössere Abweichungen.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 44: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 44

Einordnung von Proteinmodellen in 3 Kategorien1 Modelle, die auf falschen Alignments zwischen Vorlage und Zielprotein

basieren.

Strategie: konstruiere mehrere Modelle für unterschiedliche Alignments.

Wähle das am besten erscheinende Modell.

2 Modelle, die auf korrekten Alignments beruhen, können für zielgerichtete

Mutagenese-Experimente hilfreich sein.

Sind oft nicht zuverlässig genug für detaillierte Untersuchung von

Ligandenbindung.

3 Modelle, die auf einer hohen Sequenzidentität (> 70%) mit der Vorlage

beruhen. Solche Modelle können in Drug Design Projekten verwendet werden.

Fehler sind jedoch immer, also auch bei sehr hoher Identität möglich.

Page 45: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 45

Test für die Zuverlässigkeit von SwissModell

3DCrunch-Projekt von Expasy zusammen mit SGI. Generiere „Homologie-

Modelle“ für Proteine mit bekannter 3D-Struktur.

Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein.

1200 Kontrolle-Modelle.

Grad der Identität [%] Modell innerhalb von x Å RMSD zur Vorlage

< 1 < 2 < 3 < 4 < 5 > 5

25-29 0 10 30 46 67 33

30-39 0 18 45 66 77 23

40-49 9 44 63 78 91 9

50-59 18 55 79 86 91 9

60-69 38 72 85 91 92 8

70-79 42 71 82 85 88 12

80-89 45 79 86 94 95 5

90-95 59 78 83 86 91 9

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 46: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 46

Zusammenfassung

• Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität

besitzt ca. 1 Å RMSD

• Dies gilt sogar für absolute identische Sequenzen.

• Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt,

den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in

den konstruierten Schleifen.

• Die Wahl der Modellvorlage ist entscheidend!

Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder

Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle,

die von ihnen abgeleitet werden.

• Jeder Fehler im Alignment produziert falsche Modelle!

Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.

Page 47: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 47

IV The importance of being unfolded?

Anscheinend sind nicht wenige Proteine der Zelle einen Großteil der Zeit teilweise

entfaltet (P.E. Wright, H.J. Dyson, J. Mol. Biol. 293, 321 (1999))

Dies klingt sehr unerwartet. Was wären mögliche biologische Vorteile davon?

(1) Entfaltete Proteine können schneller abgebaut werden

kann für Regulation eines schnellen Zellzyklus erforderlich sein.

(2) Molekulare Erkennung ist schneller, wenn Faltung und Bindung gekoppelt sind

(3) Loopstrukturen können viele biologische Targets erkennen wichtig für Kommunikation und Regulierung bzw. Bildung großer Komplexe?

(4) Entfaltete Proteine können schnell in andere Zellkompartments transportiert

werden.

Page 48: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 48

NORS regions: no regular secondary structure NORS regions are defined to have at least 70

consecutive residues with less than 12%

regular secondary structure (helix or strand).

We found four types of proteins.

(A) Connecting loops: long loops that connect

two domains or chains (shown Formate

Dehydrogenase H, 1AA6). of interactions.

(B) Loopy ends: long N- or C-terminal regions

that lack regular secondary structure (shown

Hexon from adenovirus type 2, 1DHX).

(C) Loopy wraps: long loopy regions wrapping

around globular domains (shown Class II

chitinase, 2BAA.

(D) Loopy domains: entire structures that

have almost no regular secondary structure

(shown extra-cellular domain of T beta RI,

1TBI).

Liu, Tan, Rost, J Mol Biol (2002)

332, 53-64

Page 49: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 49

Many NORS regions predicted in proteomesWe predicted many NORS regions in 31 entirely

sequenced organisms. NORS proteins appeared

particularly abundant in eukaryotes.

(A) gives the percentage of proteins in respective

proteome for which at least one NORS region is

predicted. High enrichment in eukaryotic

proteomes!

(B) illustrates the percentage of all the residues

of the respective proteome for which a NORS

region is predicted.

(C) gives the percentage of all predicted NORS

regions that are between N and N+10 residues

long (note that, by definition, NORS regions are

longer than 70 residues). Surprisingly, almost

15% of all the predicted NORS regions extend

over more than 200 residues (inset of C). Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64

Page 50: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 50

NORS regions use particular amino acidsThe height of the one-letter amino acid code is

proportional to the abundance of the respective

acid in each data set. The actual value is the

difference in occurrence with respect to the

frequency observed in a sequence-unique subset

of PDB:

.

Inverted letters indicate acids that are less

frequent than 'expected'. The amino acids are

sorted by 'flexibility' , with the more rigid ones

on the left. Overall, NORS regions are as

abundant in more flexible residues as loop

regions in PDB . However, we found considerably

more Serine (S), Glutamine (Q), and Glycine (G)

and considerably fewer Arginine (R), Aspartic

acid (D), Glutamic acid (E), Tryptophan (W), and

Phenylalanine (F) in NORS regions than in loop

regions, in general.

Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64

21

21

PP

ppz

Page 51: 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

7. Vorlesung WS 2005/06

Softwarewerkzeuge 51

Das Prion-Protein PrPc:

ist ein normales zelluläres Glycoprotein- ist an die Plasmamembran über einen

GPI-Anker angehängt - hat 209 Aminosäuren

Seine genaue Funktion ist unbekannt.

Cu2+ Speicherung, Erinnerung?

Struktur aus NMR-Bestimmungen bekannt:

Die N-terminale Region 23-120 ist sehr

flexibel und meist ungeordnet.

C-terminale Region enthält 3 -Helices,

2 kurze -Stränge

PrPc wird schnell durch Proteinase K abgebaut

Prion: ein ungeklärtes Beispiel für misgefaltete Proteine


Recommended