Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004.

transcript

Theoretical Analysis of Theoretical Analysis of Protein-Protein Protein-Protein

InteractionsInteractions

Proseminar SS 2004Proseminar SS 2004

Virtual Screening:Virtual Screening:Predicting Pairs from Predicting Pairs from

SequenceSequence

33/29/29SS 2004SS 2004 Anna HoblerAnna Hobler

ÜbersichtÜbersicht

EinleitungEinleitung

1.Modell: Vorhersage von Protein-Interfaces aus 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerkeneuronale Netzwerke

2.Modell: Vorhersage von Protein-Interfaces aus der 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Aminosäuresequenz mithilfe einer Support Vector Machine Machine

ZusammenfassungZusammenfassung

Protein-Protein-Interaktionen spielen eine entscheidende Protein-Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Rolle bei biologischen Prozessen

Ziel: Verständnis der physiologischen Funktion eines Ziel: Verständnis der physiologischen Funktion eines Proteins Proteins

→→ Identifikation von InterfacesIdentifikation von Interfaces

Spezifisches Problem:Spezifisches Problem:

Gegeben die Struktur eines Proteins und die Tatsache, Gegeben die Struktur eines Proteins und die Tatsache, dass es einen Komplex mit einem anderen, unbekannten dass es einen Komplex mit einem anderen, unbekannten Protein bildet. Protein bildet.

Sage die Residuen des Sage die Residuen des ersten Proteins voraus, die im ersten Proteins voraus, die im Interface mit dem zweiten Protein liegen. Interface mit dem zweiten Protein liegen.

Merkmale von InterfacesMerkmale von Interfaces

unterscheiden sich in Homo- und Heteromeren, unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient sowie in permanent und transient interagierenden Proteineninteragierenden Proteinen

Unterschiedliche Interface-Arten haben Unterschiedliche Interface-Arten haben unterschiedliche Merkmaleunterschiedliche Merkmale

große Anzahl von hydrophoben Residuen im große Anzahl von hydrophoben Residuen im Vergleich zur gesamten ProteinoberflächeVergleich zur gesamten Proteinoberfläche

Protein-Interfaces sind segmentiertProtein-Interfaces sind segmentiert

Merkmale von Interface-ResiduenMerkmale von Interface-Residuen

Segmente fassen oft Residuen zusammen, die in der Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgenAminosäuresequenz aufeinanderfolgen

andere Aminosäure-Zusammensetzung als der Rest des andere Aminosäure-Zusammensetzung als der Rest des ProteinsProteins

nicht-polare Residuen häufiger in Interfaces als geladene nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) und polare Residuen (Ausnahme: Arginin)

mutieren weniger häufig als andere Stellen der Protein-mutieren weniger häufig als andere Stellen der Protein-OberflächeOberfläche

DefinitionenDefinitionen

Oberflächen-Residue:Oberflächen-Residue:relative MASA (ASA im ungebundenen Molekül) relative MASA (ASA im ungebundenen Molekül) wenigsten 25% der Gesamtfläche wenigsten 25% der Gesamtfläche

Interface-Residue:Interface-Residue:1.1. Basierend auf der Reduktion der ASA:Basierend auf der Reduktion der ASA:

ASAASAMonomer Monomer -- ASAASAKomplexKomplex <1 Å <1 Å22

2.2. Abstands-basiert:Abstands-basiert:Residue (oder Atom) in anderem Molekül mit Abstand Residue (oder Atom) in anderem Molekül mit Abstand <6Å zur Target-Residue<6Å zur Target-Residue

1.Modell: Vorhersage von Protein-Interfaces aus 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch Sequenzprofilen und Residue Neighbor Listen durch

neuronale Netzwerkeneuronale Netzwerke

Ziel: Entwicklung eines genauen Predictors für Interface-Ziel: Entwicklung eines genauen Predictors für Interface-Residuen Residuen

Input: Sequenzprofil und ASA einer Oberflächen-Input: Sequenzprofil und ASA einer Oberflächen-Residue und das Gleiche für die 19 räumlich am Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuennähesten Oberflächen-Residuen

Sammlung von Komplexen: Kettenpaare mit 20 Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bildenanderen Kette bilden

Architektur der neuronalen Architektur der neuronalen NetzwerkeNetzwerke

2 aufeinanderfolgende neuronale Netzwerke2 aufeinanderfolgende neuronale Netzwerke → → 2. Netzwerk soll Genauigkeit verbessern2. Netzwerk soll Genauigkeit verbessern 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden

Layer mit 75 Knoten, die zu 2 Output-Knoten führenLayer mit 75 Knoten, die zu 2 Output-Knoten führen Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine

Interface-Residue ist Interface-Residue ist

(0,1) sonst(0,1) sonst

2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-KnotenKnoten und 2 Output-Knoten

Die Werte der 2. Output-Knoten sind entscheidendDie Werte der 2. Output-Knoten sind entscheidend

Neural Network PredictorNeural Network Predictor

Vorherzusagende Residue: L79Vorherzusagende Residue: L79 2 nächste räumliche Nachbarn: F78, V802 nächste räumliche Nachbarn: F78, V80 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil

(PSI-BLAST) bzw. letzter Knoten enthält relative ASA(PSI-BLAST) bzw. letzter Knoten enthält relative ASA Vergleich der beiden Output-Knoten: Interface-Residue Vergleich der beiden Output-Knoten: Interface-Residue ↔ x↔ x11>x>x22

Input-LayerInput-Layer

Hidden LayerHidden Layer

Output-Output-LayerLayerQuelle: Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343. Quelle: Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343.

Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.

Performance der MethodePerformance der Methode

Training Set: 615 Paare von nicht-homologen komplex-Training Set: 615 Paare von nicht-homologen komplex-bildenden Proteinenbildenden Proteinen

225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR)225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR)

Test Set: 129 PaareTest Set: 129 Paare 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit

wenigstens einem Interface-Kontakt)wenigstens einem Interface-Kontakt)

11.004 Vorhersagen von IR11.004 Vorhersagen von IR 70% (7732) richtig, d.h. Genauigkeit70% (7732) richtig, d.h. Genauigkeit 65% der 11.805 Residuen die die 129 Interfaces bilden65% der 11.805 Residuen die die 129 Interfaces bilden

Neighbor Listen und ASA relativ unempfindlich Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen gegenüber strukturellen Änderungen

→ → NN für gebundene und ungebundene Strukturen NN für gebundene und ungebundene Strukturen etwa gleiche etwa gleiche Genauigkeit:Genauigkeit:

Suche nach ungebundenen Formen für die 129 Paare Suche nach ungebundenen Formen für die 129 Paare von Proteinketten → 35 solcher Proteinevon Proteinketten → 35 solcher Proteine

als Test Set : Genauigkeit von 69%als Test Set : Genauigkeit von 69%

2.Modell: Vorhersage von Protein-Interfaces aus der 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Aminosäuresequenz mithilfe einer Support Vector Machine

Ziel: Predictor zur Vorhersage von Interfaces durch Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector MachineNutzung einer Support Vector Machine

→→ Vorhersage, ob Oberflächen-Residue = Interface-Vorhersage, ob Oberflächen-Residue = Interface-Residue, basierend auf der Identität der Ziel-Residue Residue, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn und ihrer 10 Sequenznachbarn

einzige Strukturinformation: ASA der Residuen zur einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target-Identifizierung von Oberflächen-Residuen des Target-ProteinsProteins

Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-KontaktNachbarn haben wenigstens einen Interface-Kontakt

Input: abgeleitet aus der Identität der Target-Residue und den Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgebenResiduen die sie in der Primärsequenz umgeben→→11-Residue-Fenster besteht aus der Residue und ihren 10 11-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite)Sequenznachbarn (5 auf jeder Seite)

Output: +1 wenn Target Residue als Interface-Residue Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde vorhergesagt wurde

-1 sonst-1 sonst

Support Vector MachineSupport Vector Machine Residue repräsentiert durch Vektor mit 20 Elementen Residue repräsentiert durch Vektor mit 20 Elementen

(Elemente entsprechen den AS)(Elemente entsprechen den AS)→→ Jede Target-Residue assoziiert mit 220-elementigen Jede Target-Residue assoziiert mit 220-elementigen Vektor Vektor

Wert eines Elementes im Vektor: Häufigkeit, mit der die Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment entsprechende AS in dieser Position im Alignment vorkommtvorkommt

Learning Algorithmus generiert Klasse mit 220-Learning Algorithmus generiert Klasse mit 220-elementigen Vektor als Input und gibt Klassenlabel auselementigen Vektor als Input und gibt Klassenlabel aus

Quelle: Quelle: http://lectures.molgen.mpg.de/statistik/docs/Kapitel_16.pdf

SVM wählt eine SVM wählt eine Hyperfläche im Hyperfläche im euklidischen Raum aus, euklidischen Raum aus, die den Trennungsrand die den Trennungsrand zwischen den beiden zwischen den beiden Klassen maximiert Klassen maximiert

Maßstäbe für die Beurteilung der Maßstäbe für die Beurteilung der MethodeMethode

TP (true positives) = # vorhergesagte IR, die wirklich TP (true positives) = # vorhergesagte IR, die wirklich welche sindwelche sind

TN (true negatives) = # vorhergesagte NIR, die wirklich TN (true negatives) = # vorhergesagte NIR, die wirklich keine sindkeine sind

FP (false postitives) = # vorhergesagte IR, die aber NIR FP (false postitives) = # vorhergesagte IR, die aber NIR sindsind

FN (false negatives) = # vorhergesagte NIR, die aber IR FN (false negatives) = # vorhergesagte NIR, die aber IR sindsind

N = TP + TN + FP + FN = # aller VorhersagenN = TP + TN + FP + FN = # aller Vorhersagen→ → IR = TP + FNIR = TP + FN NIR = TN + FP NIR = TN + FP

Maßstäbe für die Beurteilung der Maßstäbe für die Beurteilung der MethodeMethode

FN -Rate AlarmFalse

FN Rate AlarmFalse

TN -Spezifität

TP Spezifität

Rate AlarmFalse -1 FPTN

TN -ätSensitivit

-Rate AlarmFalse-1 FNTP

TP ätSensitivit

ErklärungenErklärungen

Sensitivität: wie viel Prozent aller IR wurden richtig Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt vorhergesagt

Spezifität: wie viel Prozent aller vorhergesagten IR Spezifität: wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagtwurden richtig vorhergesagt

False positive rate: wie viel Prozent aller NIR wurden als False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagtIR vorhergesagt

FN)FP)(TNFP)(TNFN)(TP(TP

FN*FP-TN*TPr

TNTPtGenauigkei

Gesamtwahrscheinlichkeit,Gesamtwahrscheinlichkeit,

dass eine Vorhersage korrekt istdass eine Vorhersage korrekt ist

Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechenMaßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen1 bei positiver Korrelation1 bei positiver Korrelation-1 bei negativer Korrelation-1 bei negativer Korrelation Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.)Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.)

Performance der MethodePerformance der Methode

115 Proteine aus 70 Heterokomplexen (unterteilt in 6 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien)Kategorien) 12.676 Oberflächen-Residuen (3727 IR, 8949 NIR)12.676 Oberflächen-Residuen (3727 IR, 8949 NIR)

115 jack-knife Experimente115 jack-knife Experimente Training Set: je 1250 zufällig gewählte IR und NIR aus Training Set: je 1250 zufällig gewählte IR und NIR aus

114 der 115 Proteine114 der 115 Proteine SVM klassifizierte Oberflächen-Residuen in IR und NIR: SVM klassifizierte Oberflächen-Residuen in IR und NIR:

Spezifität 71%Spezifität 71% Sensitivität von 67% Sensitivität von 67% False Alarm Rate von 35,9% False Alarm Rate von 35,9% Korrelationskoeffizient von 0.29Korrelationskoeffizient von 0.29

ZusammenfassungZusammenfassung

Direkter Vergleich beider Methoden nicht gut möglichDirekter Vergleich beider Methoden nicht gut möglich Aber beide Methoden relativ gut, NN etwas besserAber beide Methoden relativ gut, NN etwas besser sichere Identifizierung Interfaces kann Exerimente sichere Identifizierung Interfaces kann Exerimente

untersützenuntersützen Ergebnisse und „einzigartige“ Kompositionen der Ergebnisse und „einzigartige“ Kompositionen der

interagierenden Residueninteragierenden Residuen→ → Interfaces allein aus der Sequenz bestimmbarInterfaces allein aus der Sequenz bestimmbar

QuellenQuellen

Ofran, Y. and Rost, B., (2003) FEBS Let, 544, 236-239. Ofran, Y. and Rost, B., (2003) FEBS Let, 544, 236-239. Predicted Protein-Protein Interaction Sites from Local Predicted Protein-Protein Interaction Sites from Local Sequence Information. Sequence Information.

Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343. 343. Prediction of Protein Interaction Sites from Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.Sequence Profile and Residue Neighbor List.

Yan, C., Honavar, V., and Dobbs, D., (2002) . Yan, C., Honavar, V., and Dobbs, D., (2002) . Predicting Predicting Protein-Protein Interaction Sites from Amino Acid Protein-Protein Interaction Sites from Amino Acid Sequence.Sequence.

Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004.

Documents