Post on 05-Apr-2015
transcript
Theoretical Analysis of Theoretical Analysis of Protein-Protein Protein-Protein
InteractionsInteractions
Proseminar SS 2004Proseminar SS 2004
Virtual Screening:Virtual Screening:Predicting Pairs from Predicting Pairs from
SequenceSequence
33/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
ÜbersichtÜbersicht
EinleitungEinleitung
1.Modell: Vorhersage von Protein-Interfaces aus 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerkeneuronale Netzwerke
2.Modell: Vorhersage von Protein-Interfaces aus der 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Aminosäuresequenz mithilfe einer Support Vector Machine Machine
ZusammenfassungZusammenfassung
44/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
EinleitungEinleitung
Protein-Protein-Interaktionen spielen eine entscheidende Protein-Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Rolle bei biologischen Prozessen
Ziel: Verständnis der physiologischen Funktion eines Ziel: Verständnis der physiologischen Funktion eines Proteins Proteins
→→ Identifikation von InterfacesIdentifikation von Interfaces
55/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
EinleitungEinleitung
Spezifisches Problem:Spezifisches Problem:
Gegeben die Struktur eines Proteins und die Tatsache, Gegeben die Struktur eines Proteins und die Tatsache, dass es einen Komplex mit einem anderen, unbekannten dass es einen Komplex mit einem anderen, unbekannten Protein bildet. Protein bildet.
Sage die Residuen des Sage die Residuen des ersten Proteins voraus, die im ersten Proteins voraus, die im Interface mit dem zweiten Protein liegen. Interface mit dem zweiten Protein liegen.
66/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Merkmale von InterfacesMerkmale von Interfaces
unterscheiden sich in Homo- und Heteromeren, unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient sowie in permanent und transient interagierenden Proteineninteragierenden Proteinen
Unterschiedliche Interface-Arten haben Unterschiedliche Interface-Arten haben unterschiedliche Merkmaleunterschiedliche Merkmale
große Anzahl von hydrophoben Residuen im große Anzahl von hydrophoben Residuen im Vergleich zur gesamten ProteinoberflächeVergleich zur gesamten Proteinoberfläche
Protein-Interfaces sind segmentiertProtein-Interfaces sind segmentiert
77/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Merkmale von Interface-ResiduenMerkmale von Interface-Residuen
Segmente fassen oft Residuen zusammen, die in der Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgenAminosäuresequenz aufeinanderfolgen
andere Aminosäure-Zusammensetzung als der Rest des andere Aminosäure-Zusammensetzung als der Rest des ProteinsProteins
nicht-polare Residuen häufiger in Interfaces als geladene nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) und polare Residuen (Ausnahme: Arginin)
mutieren weniger häufig als andere Stellen der Protein-mutieren weniger häufig als andere Stellen der Protein-OberflächeOberfläche
88/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
DefinitionenDefinitionen
Oberflächen-Residue:Oberflächen-Residue:relative MASA (ASA im ungebundenen Molekül) relative MASA (ASA im ungebundenen Molekül) wenigsten 25% der Gesamtfläche wenigsten 25% der Gesamtfläche
Interface-Residue:Interface-Residue:1.1. Basierend auf der Reduktion der ASA:Basierend auf der Reduktion der ASA:
ASAASAMonomer Monomer -- ASAASAKomplexKomplex <1 Å <1 Å22
2.2. Abstands-basiert:Abstands-basiert:Residue (oder Atom) in anderem Molekül mit Abstand Residue (oder Atom) in anderem Molekül mit Abstand <6Å zur Target-Residue<6Å zur Target-Residue
99/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
1.Modell: Vorhersage von Protein-Interfaces aus 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch Sequenzprofilen und Residue Neighbor Listen durch
neuronale Netzwerkeneuronale Netzwerke
Ziel: Entwicklung eines genauen Predictors für Interface-Ziel: Entwicklung eines genauen Predictors für Interface-Residuen Residuen
Input: Sequenzprofil und ASA einer Oberflächen-Input: Sequenzprofil und ASA einer Oberflächen-Residue und das Gleiche für die 19 räumlich am Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuennähesten Oberflächen-Residuen
Sammlung von Komplexen: Kettenpaare mit 20 Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bildenanderen Kette bilden
1010/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Architektur der neuronalen Architektur der neuronalen NetzwerkeNetzwerke
2 aufeinanderfolgende neuronale Netzwerke2 aufeinanderfolgende neuronale Netzwerke → → 2. Netzwerk soll Genauigkeit verbessern2. Netzwerk soll Genauigkeit verbessern 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden
Layer mit 75 Knoten, die zu 2 Output-Knoten führenLayer mit 75 Knoten, die zu 2 Output-Knoten führen Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine
Interface-Residue ist Interface-Residue ist
(0,1) sonst(0,1) sonst
2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-KnotenKnoten und 2 Output-Knoten
Die Werte der 2. Output-Knoten sind entscheidendDie Werte der 2. Output-Knoten sind entscheidend
1111/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Neural Network PredictorNeural Network Predictor
Vorherzusagende Residue: L79Vorherzusagende Residue: L79 2 nächste räumliche Nachbarn: F78, V802 nächste räumliche Nachbarn: F78, V80 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil
(PSI-BLAST) bzw. letzter Knoten enthält relative ASA(PSI-BLAST) bzw. letzter Knoten enthält relative ASA Vergleich der beiden Output-Knoten: Interface-Residue Vergleich der beiden Output-Knoten: Interface-Residue ↔ x↔ x11>x>x22
Input-LayerInput-Layer
Hidden LayerHidden Layer
Output-Output-LayerLayerQuelle: Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343. Quelle: Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343.
Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.
1212/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Performance der MethodePerformance der Methode
Training Set: 615 Paare von nicht-homologen komplex-Training Set: 615 Paare von nicht-homologen komplex-bildenden Proteinenbildenden Proteinen
225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR)225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR)
Test Set: 129 PaareTest Set: 129 Paare 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit
wenigstens einem Interface-Kontakt)wenigstens einem Interface-Kontakt)
11.004 Vorhersagen von IR11.004 Vorhersagen von IR 70% (7732) richtig, d.h. Genauigkeit70% (7732) richtig, d.h. Genauigkeit 65% der 11.805 Residuen die die 129 Interfaces bilden65% der 11.805 Residuen die die 129 Interfaces bilden
1313/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Neighbor Listen und ASA relativ unempfindlich Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen gegenüber strukturellen Änderungen
→ → NN für gebundene und ungebundene Strukturen NN für gebundene und ungebundene Strukturen etwa gleiche etwa gleiche Genauigkeit:Genauigkeit:
Suche nach ungebundenen Formen für die 129 Paare Suche nach ungebundenen Formen für die 129 Paare von Proteinketten → 35 solcher Proteinevon Proteinketten → 35 solcher Proteine
als Test Set : Genauigkeit von 69%als Test Set : Genauigkeit von 69%
1414/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
2.Modell: Vorhersage von Protein-Interfaces aus der 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Aminosäuresequenz mithilfe einer Support Vector Machine
Ziel: Predictor zur Vorhersage von Interfaces durch Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector MachineNutzung einer Support Vector Machine
→→ Vorhersage, ob Oberflächen-Residue = Interface-Vorhersage, ob Oberflächen-Residue = Interface-Residue, basierend auf der Identität der Ziel-Residue Residue, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn und ihrer 10 Sequenznachbarn
einzige Strukturinformation: ASA der Residuen zur einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target-Identifizierung von Oberflächen-Residuen des Target-ProteinsProteins
Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-KontaktNachbarn haben wenigstens einen Interface-Kontakt
1515/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Input: abgeleitet aus der Identität der Target-Residue und den Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgebenResiduen die sie in der Primärsequenz umgeben→→11-Residue-Fenster besteht aus der Residue und ihren 10 11-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite)Sequenznachbarn (5 auf jeder Seite)
Output: +1 wenn Target Residue als Interface-Residue Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde vorhergesagt wurde
-1 sonst-1 sonst
1616/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Support Vector MachineSupport Vector Machine Residue repräsentiert durch Vektor mit 20 Elementen Residue repräsentiert durch Vektor mit 20 Elementen
(Elemente entsprechen den AS)(Elemente entsprechen den AS)→→ Jede Target-Residue assoziiert mit 220-elementigen Jede Target-Residue assoziiert mit 220-elementigen Vektor Vektor
Wert eines Elementes im Vektor: Häufigkeit, mit der die Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment entsprechende AS in dieser Position im Alignment vorkommtvorkommt
Learning Algorithmus generiert Klasse mit 220-Learning Algorithmus generiert Klasse mit 220-elementigen Vektor als Input und gibt Klassenlabel auselementigen Vektor als Input und gibt Klassenlabel aus
1717/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Quelle: Quelle: http://lectures.molgen.mpg.de/statistik/docs/Kapitel_16.pdf
SVM wählt eine SVM wählt eine Hyperfläche im Hyperfläche im euklidischen Raum aus, euklidischen Raum aus, die den Trennungsrand die den Trennungsrand zwischen den beiden zwischen den beiden Klassen maximiert Klassen maximiert
1818/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Maßstäbe für die Beurteilung der Maßstäbe für die Beurteilung der MethodeMethode
TP (true positives) = # vorhergesagte IR, die wirklich TP (true positives) = # vorhergesagte IR, die wirklich welche sindwelche sind
TN (true negatives) = # vorhergesagte NIR, die wirklich TN (true negatives) = # vorhergesagte NIR, die wirklich keine sindkeine sind
FP (false postitives) = # vorhergesagte IR, die aber NIR FP (false postitives) = # vorhergesagte IR, die aber NIR sindsind
FN (false negatives) = # vorhergesagte NIR, die aber IR FN (false negatives) = # vorhergesagte NIR, die aber IR sindsind
N = TP + TN + FP + FN = # aller VorhersagenN = TP + TN + FP + FN = # aller Vorhersagen→ → IR = TP + FNIR = TP + FN NIR = TN + FP NIR = TN + FP
1919/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Maßstäbe für die Beurteilung der Maßstäbe für die Beurteilung der MethodeMethode
TPFN
FN -Rate AlarmFalse
TNFP
FN Rate AlarmFalse
FNTN
TN -Spezifität
FPTP
TP Spezifität
Rate AlarmFalse -1 FPTN
TN -ätSensitivit
-Rate AlarmFalse-1 FNTP
TP ätSensitivit
2020/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
ErklärungenErklärungen
Sensitivität: wie viel Prozent aller IR wurden richtig Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt vorhergesagt
Spezifität: wie viel Prozent aller vorhergesagten IR Spezifität: wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagtwurden richtig vorhergesagt
False positive rate: wie viel Prozent aller NIR wurden als False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagtIR vorhergesagt
2121/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
FN)FP)(TNFP)(TNFN)(TP(TP
FN*FP-TN*TPr
N
TNTPtGenauigkei
Gesamtwahrscheinlichkeit,Gesamtwahrscheinlichkeit,
dass eine Vorhersage korrekt istdass eine Vorhersage korrekt ist
Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechenMaßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen1 bei positiver Korrelation1 bei positiver Korrelation-1 bei negativer Korrelation-1 bei negativer Korrelation Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.)Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.)
2222/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
Performance der MethodePerformance der Methode
115 Proteine aus 70 Heterokomplexen (unterteilt in 6 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien)Kategorien) 12.676 Oberflächen-Residuen (3727 IR, 8949 NIR)12.676 Oberflächen-Residuen (3727 IR, 8949 NIR)
115 jack-knife Experimente115 jack-knife Experimente Training Set: je 1250 zufällig gewählte IR und NIR aus Training Set: je 1250 zufällig gewählte IR und NIR aus
114 der 115 Proteine114 der 115 Proteine SVM klassifizierte Oberflächen-Residuen in IR und NIR: SVM klassifizierte Oberflächen-Residuen in IR und NIR:
Spezifität 71%Spezifität 71% Sensitivität von 67% Sensitivität von 67% False Alarm Rate von 35,9% False Alarm Rate von 35,9% Korrelationskoeffizient von 0.29Korrelationskoeffizient von 0.29
2323/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
2424/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
2525/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
2626/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
2727/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
2828/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
ZusammenfassungZusammenfassung
Direkter Vergleich beider Methoden nicht gut möglichDirekter Vergleich beider Methoden nicht gut möglich Aber beide Methoden relativ gut, NN etwas besserAber beide Methoden relativ gut, NN etwas besser sichere Identifizierung Interfaces kann Exerimente sichere Identifizierung Interfaces kann Exerimente
untersützenuntersützen Ergebnisse und „einzigartige“ Kompositionen der Ergebnisse und „einzigartige“ Kompositionen der
interagierenden Residueninteragierenden Residuen→ → Interfaces allein aus der Sequenz bestimmbarInterfaces allein aus der Sequenz bestimmbar
2929/29/29SS 2004SS 2004 Anna HoblerAnna Hobler
QuellenQuellen
Ofran, Y. and Rost, B., (2003) FEBS Let, 544, 236-239. Ofran, Y. and Rost, B., (2003) FEBS Let, 544, 236-239. Predicted Protein-Protein Interaction Sites from Local Predicted Protein-Protein Interaction Sites from Local Sequence Information. Sequence Information.
Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343. 343. Prediction of Protein Interaction Sites from Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.Sequence Profile and Residue Neighbor List.
Yan, C., Honavar, V., and Dobbs, D., (2002) . Yan, C., Honavar, V., and Dobbs, D., (2002) . Predicting Predicting Protein-Protein Interaction Sites from Amino Acid Protein-Protein Interaction Sites from Amino Acid Sequence.Sequence.