+ All Categories
Home > Documents > 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen...

5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen...

Date post: 05-Apr-2015
Category:
Upload: adelheit-rathfon
View: 105 times
Download: 1 times
Share this document with a friend
40
5. Vorlesung WS 2005/06 Softwarewerkzeuge 1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk - Hierarchischer Aufbau der Proteinstruktur - Klassifikation von Proteinstrukturen
Transcript
Page 1: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 1

V6: Bioinformatische Analyse von Proteinstrukturen

Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk

- Hierarchischer Aufbau der Proteinstruktur

- Klassifikation von Proteinstrukturen

Page 2: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 2

Funktion von Proteinen

Strukturproteine (Hüllenproteine von Viren, Cytoskelett)

Enzyme, die chemische Reaktionen katalysieren

Transport- und Speicheproteine (Hämoglobin)

Regulatoren wie Hormone und Rezeptoren/Signalübertragungsproteine

Proteine, die die Transkription kontrollieren

oder an Erkennungsvorgängen beteiligt sind:

Zelladhäsionsproteine, Antikörper

Page 3: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 3

Warum sind Proteine so groß?

Proteine sind große Moleküle.

Ihre Funktion ist oft in einem kleinen Teil der Struktur, dem aktiven Zentrum,

lokalisiert.

Der Rest?

- Korrekte Orientierung der Aminosäuren des aktiven Zentrums

- Bindungsstellen für Interaktionspartner

- Konformationelle Dynamik

Evolution der Proteine: Veränderungen der Struktur, die durch Mutationen in ihrer

Aminosäuresequenz hervorgerufen werden.

Page 4: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 4

Hierarchischer Aufbau

Primärstruktur – Sekundärstruktur – Tertiärstruktur – Quartärnere Struktur –

Komplexe

Welche „Kräfte“ sind für die Ausbildung der verschiedenen „Strukturen“

wichtig?

Page 5: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 5

Einleitung: Aminosäuren

Aminosäuren sind die Bausteine von Proteinen:

R

NH

H

O

OH

H

Carboxylsäure

Aminogruppe

Aminosäuren unterscheiden sich hinsichtlich ihrer- Größe- elektrischen Ladung- Polarität- Form und Steifigkeit

Page 6: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 6

Proteine sind aus 20 verschiedenen natürlichenAminosäuren aufgebaut

5 sind hydrophob.Sie sind vor allemIm Proteininneren. H

NH

H

O

OH

H

CH

NH

H

O

OH

H

CH

NH

H

O

OH

CH

H

CH

NH

H

O

OH

CHCH

H

CH

NH

H

O

OH

CH

CH

H

CH

H C

Glycine

3

3

2 3

Alanine3

Valine

33

Leucine3

2

Isoleucine

Einleitung: hydrophobe Aminosäuren

Page 7: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 7

Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan

liegen bei Membranproteinen vor allem in der Interface-region.

H

CH

NH

H

O

OH

H

CH

NH

H

O

OH

OH

H

CHN

CH

NH

H

O

OH

H

Phenylalanin

2

Tyrosin

2

Tryptophan

2

Einleitung: aromatische Aminosäuren

Page 8: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 8

Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.

Cysteine können Disulfidbrücken bilden.

Prolin ist ein “Helixbrecher”.

H

S

CH

NH

H

O

OH

H

H

CH

CH

NH

H

O

OH

S

CH

HNH

H

O

OH

CH

CHCH

Cystein

2 2

2

3

Methionin

2

Prolin

2

2

Einleitung: Aminosäuren

Page 9: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 9

Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:

H

CH2

CH

NH

H

O

OH

OH

H

CH

CH

NH

H

O

OH

CH O H

Serin

2 2

3

Threonin

Einleitung: Aminosäuren

Page 10: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 10

Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der

Proteinoberflächen und in aktiven Zentren.

Thermophile Organismen besitzen besonders viele Ionenpaare auf den Protein-

oberflächen.H

CH

NH

H

O

OH

CH

CH

CH

NH

H

CH

NH

H

O

OH

CH

CH

N H

NH NH

H

CH

NH

H

O

OH

N N

H

H

H

H

Lysin

2

2

2

2

3

+

2

2

2

2 2

+

Arginin

2

+

Histidin

Einleitung: Aminosäuren

Page 11: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 11

Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.

Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8

werden ihre Carboxylgruppe protoniert.

H

CH

NH

H

O

OH

O O

H

O O

CH

NH

H

O

OH

CH

H

CH

NH

H

O

OH

O NH

H

O NH

CH

NH

H

O

OH

CH

Asparaginsäure

2 2

Glutaminsäure

2

Asparagin

2 2

Glutamin

2

2

2-

-

Einleitung: Aminosäuren

Page 12: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 12

• Ein- und Drei-Buchstaben-Codes der Aminosäuren

G Glycin Gly P Prolin ProA Alanin Ala V Valin ValL Leucin Leu I Isoleucin IleM Methionin Met C Cystein CysF Phenylalanin Phe Y Tyrosin TyrW Tryptophan Trp H Histidin HisK Lysin Lys R Arginin ArgQ Glutamin Gln N Asparagin AsnE Glutaminsäure Glu D Asparaginsäure AspS Serin Ser T Threonin Thr

Zusätzliche CodesB Asn/Asp Z Gln/Glu X Irgendeine Aminosäure

Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse!

Buchstaben-Code der Aminosäuren

Page 13: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 13

In Peptiden und Proteinen sind die Aminosäuren miteinander als lange

Ketten verknüpft.

Ein Paar ist jeweils über eine „Peptidbindung“ verknüpft.

Die Aminosäuresequenz eines

Proteins bestimmt seinen

„genetischen code“.

Die Kenntnis der Sequenz eines

Proteins allein verrät noch nicht

viel über seine Funktion.

Entscheidend ist seine

drei-dimensionale Struktur.

O

OR

H

H N

O

OR

H

H N

O

O

O

R

H

H N N

H

H

R

O

O

O

R

H

H N N

H

H

R

+

-3

+

-3+

+3

-+ H O2

2

2

1

1

+3

21

peptide bond

G>0

Einleitung: Peptidbindung

Page 14: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 14

E.J. Corey und Linus Pauling studierten die Petidbindung in den

1940‘ern und 1950‘ern.

Sie fanden: die C-N Länge ist 1.33 Å.

Sie liegt damit zwischen 1.52 Å und 1.25 Å,

was die Werte für eine Einfach- bzw.

Doppelbindung sind.

Die benachbarte C=O Bindung hat eine Länge

Von 1.24 Å, was etwas länger als eine typische

Carbonyl- C=O Doppelbindung ist (1.215 Å).

die Peptidbindung hat einen teilweise

konjugierten Charakter und ist nicht frei drehbar.

Es bleiben damit pro Residue 2 frei drehbare

Diederwinkel des Proteinrückgrats übrig.

O

OR

H

H N

O

OR

H

H N

O

O

O

R

H

H N N

H

H

R

O

O

O

R

H

H N N

H

H

R

+

-3

+

-3+

+3

-+ H O2

2

2

1

1

+3

21

peptide bond

G>0

Eigenschaften der Peptidbindung

Linus PaulingNobelpreise fürChemie 1954 undFrieden 1963

Page 15: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 15

-Helix

-Haarnadel

-Element

Supersekundärstrukturen

Lesk-Buch

Page 16: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 16

Wie seit den 1950‘er Jahren bekannt,

können Aminosäure-Stränge

Sekundärstrukturelemente

bilden:(aus Stryer, Biochemistry)

-Helices

und -Stränge.

In diesen Konformationen

bilden sich jeweils

Wasserstoffbrückenbindungen

zwischen den C=O und N-H

Atomen des Rückgrats. Daher

sind diese Einheiten strukturell

stabil.

Einleitung: Sekundärstrukturelemente

Page 17: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 17

Diederwinkel des Proteinrückgrats

Lesk-Buch

Die dreidimensionale

Faltung des Proteins wird

vor allem durch die

Diederwinkel des

Proteinrückgrats bestimmt.

Pro Residue gibt es 2 frei

drehbare Diederwinkel, die

als und bezeichnet

werden.

Page 18: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 18

Stabilität und Faltung von Proteinen

Die gefaltete Struktur eines Proteins ist

die Konformation, die die günstigste freie

Enthalpie G für diese

Aminosäuresequenz besitzt.

Der Ramachandran-Plot charakterisiert

die energetisch günstigen Bereiche des

Aminosäurerückgrats.

r-Helix-Region

-Faltblatt-Region

(rechtsgängige Helix)

Page 19: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 19

Kompakter Bereich im

Faltungsmuster einer

Molekülkette,

der den Anschein hat, “er

könnte auch unabhängig von

den anderen stabil sein”.

Domänen

cAMP-abhängige Proteinkinase

SERCA Calcium-Pumpe

Lesk-Buch

Page 20: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 20

Modular aufgebaute Proteine bestehen aus mehreren Domänen.

Anwendung von SMART (www.smart.embl-heidelberg.de) für die Src-Kinase HcK

ergibtSequenz: MGGRSSCEDP GCPRDEERAP RMGCMKSKFL QVGGNTFSKT ETSASPHCPVYVPDPTSTIK PGPNSHNSNT PGIREAGSED IIVVALYDYE AIHHEDLSFQKGDQMVVLEE SGEWWKARSL ATRKEGYIPS NYVARVDSLE TEEWFFKGISRKDAERQLLA PGNMLGSFMI RDSETTKGSY SLSVRDYDPR QGDTVKHYKIRTLDNGGFYI SPRSTFSTLQ ELVDHYKKGN DGLCQKLSVP CMSSKPQKPWEKDAWEIPRE SLKLEKKLGA GQFGEVWMAT YNKHTKVAVK TMKPGSMSVEAFLAEANVMK TLQHDKLVKL HAVVTKEPIY IITEFMAKGS LLDFLKSDEGSKQPLPKLID FSAQIAEGMA FIEQRNYIHR DLRAANILVS ASLVCKIADFGLARVIEDNE YTAREGAKFP IKWTAPEAIN FGSFTIKSDV WSFGILLMEIVTYGRIPYPG MSNPEVIRAL ERGYRMPRPE NCPEELYNIM MRCWKNRPEERPTFEYIQSV LDDFYTATES QYQQQP

Modular aufgebaute Proteine

Page 21: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 21

http://jkweb.berkeley.edu/

Beispiel: Src-Kinase HcK

Page 22: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 22

Die Klassifikation von Proteinstrukturen

nimmt in der Bioinformatik eine

Schlüsselposition ein, weil sie das

Bindeglied zwischen Sequenz und

Funktion darstellt.

Lesk-Buch

Klassifikation von Proteinen

Page 23: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 23

Lesk-Buch

Anwendungen der Hydrophobizität

Page 24: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 24

Betrachte die Residuen einer

Transmembranhelix …

-Helices in globulären Proteinen

haben oft eine ins Innere des

Proteins weisende „hydrophobe“

Seite und eine „hydrophile“ Seite,

die zum Lösungsmittel gerichtet

ist.

In einer -Helix ist jede Aminosäure

um etwa 100 Grad gegenüber ihrem

Vorgänger verdreht.

Damit müssen sich hydrophile und

hydrophobe Residuen etwa alle

4 Positionen abwechseln.

Anwendungen der Hydrophobizität: Das helikale Rad

Dasselbe Verhalten zeigen

amphipatische Helices, die

auf der Oberfläche einer

Lipid-Doppelschicht binden.

Page 25: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 25

Im Inneren der Lipidschicht kann das Proteinrückgrat keine Wasserstoffbrücken-

Bindungen mit den Lipiden ausbilden

die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen

ausbilden,

sie müssen entweder helikale oder -Faltblattkonformation annehmen.

Topologie von Membranproteinen

Page 26: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 26

Topologie von Membranproteinen

http://www.biologie.uni-konstanz.de/folding/Structure%20gallery%201.html

Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten)

Strukturen von Transmembranproteinen entweder reine -Barrels (links)

oder reine -helikale Bündel (rechts) sind.

Page 27: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 27

Vergleich von zwei Proteinstrukturen:

Angabe des RMS-Werts, die Wurzel

der mittleren quadratischen

Abweichung,

oder root-mean-square deviation

Interessanterweise ist bei zwei

verschiedenen Proteinen oft nicht klar,

welche Atome überlagert werden

sollen!

Superposition von Strukturen und Struktur-Alignment

n

dRMS i

2

di : Abstand zwischen den Koordinaten des

i-ten Atompaares

n : Anzahl an Atompaaren

Page 28: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 28

L. Holm & C. Sander

Während der Evolution eines Proteins verändert sich seine Struktur.

Was häufig erhalten bleibt, ist die Verteilung der Kontakte zwischen den Aminosäuren.

Konstruiere Kontaktmatrizen für beide Proteine (leicht)

finde maximal übereinstimmende Untermatrizen der Kontaktmatrizen (schwierig)

http://www.ebi.ac.uk/dali

DALI (Distance-matrix Alignment)

Page 29: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 29

Wie kann man 2 Proteinstrukturen vergleichen?

Paarweise Sequenzvergleiche

Paarweise Strukturvergleiche?

Page 30: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 30

Partitioning protein space into homologous families

Protein architecture. The tramtrack protein

[2drp] is a small protein (525 heavy

atoms, 63 residues, and 6 elements of

secondary structure), yet it exhibits typical

modular protein architecture with two

compact structural domains, the so-called

zinc fingers.

(A) The most detailed description of

atomic positions is required to understand

the function of the tramtrack protein (gray

and black, running left to right), which

involves binding to a specific base

sequence of DNA (white).

Holm, Sander Science 273, 5275 (1996)

Page 31: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 31

Partitioning protein space into homologous families

(B) The complicated 3D shape of proteins

is encoded in their linear sequence of

amino acids. Side chains stripped off, the

polypeptide backbone (thick) can be seen

meandering from the bottom left to the

upper right. Regular patterns of hydrogen

bonding (thin lines) between amide and

carbonyl groups of the polypeptide

backbone give rise to secondary structure,

shown schematically in (C) as arrows for

 strands and cylinders for  helices (with

zinc atoms as spheres).

Holm, Sander Science 273, 5275 (1996)

Page 32: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 32

Meaning of structural equivalence

Shape comparison aims at the 1:1

enumeration of equivalent polymer units

in 2 protein molecules.

The problem and solution can be

represented

- in 3D, as a rigid-body superimposition;

- in 2D, as similar patterns in distance

matrices;

- in 1D, as an alignment of amino acid

sequences.

-

Here, the comparison of the tramtrack

protein with another zinc finger protein,

the human enhancer-binding protein

MBP-1 [1bbo], is used as an example.

Holm, Sander Science 273, 5275 (1996)

(A) In the 3D comparison, the problem is to find a translation and rotation of one molecule (red: 1bbo) onto the other (blue: 2drpA). The 3D superimposition (residue centers only, green lines join equivalenced residue centers, zinc atoms as spheres) is not exact because of an internal rotation of the two zinc finger domains relative to one another.

Page 33: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 33

Ranges of similarity between proteins

Holm et al. Prot Sci 1, 1691 (1992)

Page 34: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 34

Surprising similarities

Holm et al. Prot Sci 1, 1691 (1992)

Page 35: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 35

Surprising similarities

Holm et al. Prot Sci 1, 1691 (1992)

Page 36: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 36

Surprising similarities

Holm et al. Prot Sci 1, 1691 (1992)

Page 37: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 37

Partitioning protein space into homologous families(B) The 2D distance matrices reveal

the conserved structure of the zinc

fingers (left: distance matrices of the

whole structures; black dots are

intramolecular distances less than

12 Å, 1bbo at bottom and 2drpA on

top; right: distance matrices brought

into register by keeping only rows or

columns corresponding to

structurally equivalent residues).

(C) One-dimensional alignment of

amino acid strings. Evolutionary

comparison aligns the histidine (H)

residues involved in zinc binding

(bold; helices and strands of

secondary structure are underlined).

Holm, Sander Science 273, 5275 (1996)

Page 38: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 38

Algorithms for structural alignment(A) The 3D lookup is a fast heuristic algorithm that catches easy-to-find

structural similarities. The idea is that in favorable cases, 3D

superimposition of only a pair of secondary structure elements (SSEs)

leads to superimposition of the entire structures.

Top: Structure comparison of an SH3 domain of c-Src kinase [1cskA,

query structure] with the enzyme papain [1ppn, target structure] reveals

similar domain folds, although there is no sequence relation between the

proteins and one is much larger.

The appropriate orientation of the molecules is found by exhaustive

comparison of internal coordinate frames of each protein. An internal

coordinate frame is defined by an ordered pair of SSEs (centering one

SSE at the origin, aligning it with the y axis, and rotating the molecule

around this axis so that the center of a second SSE is in the positive x-y

plane).

Bottom left: Target structure, papain, loaded onto the SSE lookup grid.

Each pair of SSEs where the segment midpoints are within 12 Å defines a

coordinate frame relative to the grid axes. The figure shows the

transformed positions of the 12 SSEs of papain (dotted lines) in each of

the 100 different coordinate frames defined by different pairs of SSEs.

Bottom right: The target lookup grid is probed with the SH3 domain, which

has four SSEs (thick continuous lines). The coordinate frames shown are

the ones yielding the best 3D match of four segments. Iterative extension

of a residue-wise alignment starting from the preorientation defined by the

SSE match shown here leads to the equivalence of 43 C atoms with

1.7 Å root-mean-square positional deviation on an optimal least-squares

superimposition.

Holm, Sander Science 273, 5275 (1996)

Page 39: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 39

Branch-and-bound algorithm(B) A branch-and-bound algorithm is guaranteed to yield the global optimum but may, in the

worst case, need an exponential number of steps to do so.

First, protein structures A and B are represented by distance matrices (bottom left and right;

each point in a matrix is a residue-residue distance; an internal square is a set of contacts

made by two segments; the secondary structure segments are ,, and ).

The problem of shape comparison becomes one of finding a best subset of residues in each

matrix (subsets of rows and columns) such that the set of residues in protein A has a similar

pattern of intramolecular distances as the set in protein A, as in Fig. 2B.

A single solution to the problem is given in terms of the two sets of equivalent residues (an

alignment). The solution space consists of all possible placements of residues in protein B

relative to the segments of residues of protein A. The key algorithmic idea is to recursively

split the solution subspace (schematically shown as a circle at upper left, in which each point

is a solution to the problem and the lines divide subsets of solutions) that yields the highest

upper bound until there is a single alignment trace left:

start with the entire circle; calculate the upper bound for the left (9) and right (17) half; choose

the right half and split it into top (upper bound 10) and bottom (upper bound 16) quarters;

choose the bottom part and split it (left: 14; right: 12); choose the right part; and so on until

the area of solution space has shrunk to a single solution (shown as the residue-residue

alignment matrix enlarged at right). The upper bound for each part of the solution space is

estimated in terms of a simplified subproblem that asks for the best match of residues in

protein B onto a predefined set of residues in protein A (the match is illustrated by the circle-

ended line connecting the single square in matrix A with a set of candidate squares in matrix

B). The best match is the one with the maximal pair score (sum of similarities of distances

between the square in A and the square in B). The predefined set corresponds to residues in

secondary structure elements. The upper bound for each of the segment-segment

submatrices of matrix A is found by calculating the similarity scores between the submatrix in

A and all accessible submatrices in B. An upper bound of the total similarity score (sum over

all segment-segment submatrices in A) for one set of solutions is given by the sum of

separately calculated upper bounds for each segment-segment pair of matrix A. 

Holm, Sander Science 273, 5275 (1996)

Page 40: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk.

5. Vorlesung WS 2005/06

Softwarewerkzeuge 40

Die Sekundärstrukturelemente -Helix und -Faltblatt werden durch energetisch

günstige Wasserstoffbrücken zwischen Atomen des Peptidrückgrats gebildet.

Sie sind sequenzunabhängig.

Protein ”folds” ergeben sich durch die Assemblierung von

Sekundärstrukturelementen.

Der Ramachandran-Plot ist ein wichtiges Werkzeug um die Güte von Protein-

strukturen (bzw. –modellen) zu beurteilen.

Proteine sind oft modular aus mehreren Domänen aufgebaut.

Der Vergleich mehrerer Proteinstrukturen ist nicht-trivial.

Zusammenfassung


Recommended