Seite 1 Tomislav Grgat Patrick Gutbell 3D Repräsentation von DNA SequenzenProseminar GDV SS2003 3D...

Post on 05-Apr-2015

108 views 0 download

transcript

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

3D Repräsentation von DNA Sequenzen

Tomislav GrgatPatrick Gutbell

Proseminar:Visualisierung in der Bioinformatik

Sommersemester 2003

Johann Wolfgang Goethe Universität FrankfurtFachbereich: Graphische Datenverarbeitung

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Übersicht

● Einführung

● H Curve

● Z Curve

● ADN Viewer

● Zusammenfassung

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Einführung

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

DNA (Desoxyribonukleinsäure):

• Trägerin der Erbsubstanz

• Bauplan der Baustoffe(Strukturproteine)

und Bauarbeiter (Enzyme) einer Zelle

•Information in der Basenabfolge

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Spezifische Sequenzbereiche:

• Introns

• Exons

• repetitive Sequenzbereiche

• Palindrome

• Sequenzbereiche mit hohem GC-Gehalt

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Repetitive Sequenzen:

•10-25% repetitive Sequenzen

• meist an Enden von Chromosomen; dienen zur Erhaltung der Chromosomenspitzen

• Transposons: transponierbare genetische Elemente: können Ort innerhalb des Genoms wechseln

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Palindrome:

Erkennungstelle für Enzyme

5` C C G C G G 3` 3` G G C G C C 5`

RADAR

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Was sagt der GC-Gehalt der DNA aus?

• Anteil von Guanin und Cytosin an den Basen der DNA

• grobe Aussage über den Verwandtschaftsgrad =>geringe Variation deutet auf enge Verwandtschaft

•Genkonzentration korreliert mit GC-Gehalt

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Warum eine 3D-Darstellung der DNA ?

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

1 gatcattctt ccatgtaggg gcaccctgtg ctatgtgggg ggttgagcag catcctgggc 61 ctctacctcc agttgagatg gccacagatg cctccaggct gggcatctct gcttgagggg 121 agctgtcttg gcctagaaca caggctgggg gccgctggtc cagcaggagc cttcctgcct 181 cgattccctc ttggcctgcg gtgagtgttt gcagctctcc ccccgtctgt ctcctgactt 241 tccctgggct gggctggtct tgttgtgtca ccctgtttct gccagacctt gagattccag 301 tcaaaataaa acagcggtgg atagaggggc tgagtgtggc cccccgaggc cctgggacat 361 cttttaccat tcgctgtcac agccgagatc tcccctgtgt cagtgatcct atgcaacatc 421 cccagataac agtgcagggc agataagtga ggatgtggtg aagggaaatg ggggagtgga 481 cgaggggcgt ccccggggag gatggcgcct accacgggca gtaaggaggt ctgcgtgagg 541 gatgcaggga cacaggaggc cagggtggca tcctgcctcc tacttgcgca ggtccagcgg 601 ggatcagagt ggaggcctcg caccagctct gggacatgaa ggggcccgag gcagcccttg 661 tggccacacg ggccttgtca tggttcggcc tttccactct gtgttccgaa ctgtgcagtg 721 tgtatgtgta ggcacagatg tgtgcccgtg cccatgccta ggactttgcg tgtgtctgta 781 cgtgtgattt cgtgtgtgtg tgcatcttcg ttggcgacac acgtgtgcaa tagttcttcc 841 atttcatttt ctctggtttg ggttacattc acccaactat gatgttgaaa atattaaatg

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Welche Kriterien sollte die Darstellung erfüllen ?

• Analyse von Sequenzdaten

• Vergleich mit anderen Sequenzen

• Präsentation einer großen Datenmenge

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

DNA 3D-Visualisierungen:

• H-Curve

• Z-Curve

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Prinzip der H-Curve Berechnung:

• jedem Nukleotid wird ein Vektor im 3D-Raum zugewiesen • Startpunkt (0,n,0)

• Vektoren werden entsprechend der Basenfolge aneinandergehängt

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Basisvektoren:

B: (x, y, z)

A: (1, -1, 1 )T: (1, -1, -1)C: (-1,-1,-1)G: (-1, -1, 1)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Beispiel für Sequenzabfolge: ACT

Koordinaten:(x, y, z)

Startpunkt: ( 0, 3 , 0) A ( 1, -1, 1) + ( 1, 2, 1) C (-1, -1,-1) + ( 0, 1, 0) T (1, -1, -1) +Endpunkt: (1, 0, -1 )

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Welche Möglichkeiten bietet die H-Curve:

A)gibt relative Basenzusammensetzung innerhalb einer Sequenz an

B)Erkennung von spezifischen Sequenzabschnitten

D)Vergleich zwischen Sequenzen

E) Darstellung des Gesamten DNA-Stranges

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Teil des Genoms von Bacteriophage M13

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

2D Projektionen der H-Curve

A B

A : Kurve zeigt relative Purin/Pyrimidin-Verteilung an

(Seq.:ACT)

B : Kurve zeigt relative CG/AT-Verteilung an

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Endpunkt-Indikator der H-Curve:C T

AG

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Erweiterbare Funktionen zur H-Curve:

• 2D-Projektion

• Smoothed H-Curve

• Distortion-Viewing-Tool

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

„Smoothed“ H-Curve

• Errechnet sich aus Mittelwerten • Lokale Muster nicht wichtig

• Gesamtstruktur ist entscheidend

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Distortion-Viewing-Tool:

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Nachteile der H-Curve-Darstellung:

• Ungenauigkeit

• nicht frei erhältlich

• Wenige Zusatzfunktionen

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Vorteile der H-Curve- Darstellung:

• direkter visueller Check des Gesamt-DNA Strangs

• direkte Angabe der relativen Basenzusammensetzung

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Z Curve● Definition

● Visuelle Anwendungen

● Analytische Ableitungen

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

DNA Sequenz aus 29 751 BasenpaarenQuelle: Z Curve Database

http://tubic.tju.edu.cn/zcurve/

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Z Curve

● Dreidimensionale vollständige Repräsentation einer DNA Sequenz

● Z Curve und DNA Sequenz lassen sich eindeutig aus der jeweils anderen konstruieren

● Zhang.C.T und Zhang.R (1994)

● Z Curve Database: http://tubic.tju.edu.cn/zcurve/

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Berechnung der Z Curve

● Folge von P0,P1,...,PN Punkten in 3D

● Die sequentielle Verbindung der Punkte durch Linien ergibt die 3-dimensionale Z Curve

● N ist die Anzahl der Basenpaare der DNA Seq.

● Berechnung der Punkte erfolgt mittels der sog. „Z Transform“

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Z Transform

An,G

n,C

n,T

n bezeichnen die Auftreten der Basen

A,G,C und T in der DNA Sequenz bis zur n-ten Stelle

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Inverse Z Transform

An + C

n + G

n + T

n = n

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Bedeutung der „Z Transform“

● Jede Komponente xn,yn,zn repräsentiert die Verteilung bestimmter Basentypen zueinander:

– xn repräsentiert die Verteilung von Purin/Pyrimidin (R,Y)

– yn repräsentiert die Verteilung von Amino/Keto (M,K)

– zn repräsentiert die Verteilung von Starken/Schwachenwasserstoffbindenden Basentypen (S/W)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Bedeutung der „Z Transform“

● Ist xn > 0 dominieren Purin Basen (A oder G) über Pyrimidin Basen (C oder T)

● Ist yn > 0 dominieren Amino Basen (A oder C) über Keto Basen (G oder T)

● Ist zn > 0 dominieren schwache Wasserstoff-bindende Basen (A oder T) über stark Wasserstoffbindende Basen (G oder C)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Symmetrie der Z Curve

Quelle: Z Curve Database http://tubic.tju.edu.cn/zcurve/image/ecolik12.JPG

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

4.6 Millionen Basenpaare

5.5 MillionenBasenpaare

Vergleich von DNA Sequenzen unterschiedlicher Länge

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Visueller Vergleich von DNA Sequenzen

Quelle: Zhang R, Zhang C.T: The Z curve database: a graphic representation of genome sequences (2003)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Analyse des GC Gehalts

● Neue 2D Kurve leitet sich aus der z-Komponente ab:

z'n = zn – k X n

● Steigt bzw. sinkt die z'n Kurve, so überwiegen A und T bzw. G und C Basen in dieser Region

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Vibrio Cholerae, Quelle: Zhang R, Zhang C.T: The Z curve database: a graphic representation of genome sequences (2003)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

AT- und GC-Disparitäten

● Chargaffs 2. Paritäts Regel besagt

– AN ~ TN

– GN ~ CN

● In den Koordinaten der Z Curve ausgedrückt:

– (xN + yN) ~ 0

– (xN – yN) ~ 0

(2 neue Kurven in 2D)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Sybean chlorotic mottle virusQuelle: Zhang R, Zhang C.T: The Z curve database: a graphic representation of genome sequences (2003)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Kennedya yellow mosaic virusQuelle: Zhang R, Zhang C.T: The Z curve database: a graphic representation of genome sequences (2003)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

3D Darstellung der räumlichen DNA Struktur

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Räumliche Struktur der DNA

● Diesmal: Darstellung der natürlichen 3-dimensionalen Struktur des DNA Moleküls

● Dies erlaubt z.B. die Visualisierung:

– Der lokalen Dichte des DNA Moleküls

– Der Kurvatur

– Der räumlichen Ausdehnung

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

ADN Viewer

● Software zur Visualisierung der räumlichen DNA Struktur

– Eingabe: DNA Sequenz

– Berechnung der 3D Struktur anhand eines vom User wählbaren Verfahrens

– 3D Darstellung der DNA

– Bietet Möglichkeit der Detailansicht (Zoom)

– Hervorheben bestimmter DNA Merkmale (z.B. einzelner Gene, in Verbindung mit Datenbank)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

300 000 Basenpaare

Quelle: Joan Herisson and Rachid Gherbi: Model-based prediction of the 3D Trajectory of Huge DNA Sequences

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Ausschnitt dervorherigen Ansicht

Ausschnitt inkl. farbkodierter Darstellung der Nukleotide

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Visualisierung einzelner Gene (weiss) eines DNA Moleküls (S. cerevisiae chrI)

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Zusammenfassung

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Zusammefassung

● Statistische 3D Darstellung

– H Curve, Z Curve

– Visueller Vergleich

– Analytische Ableitungen ● 3D Struktur des DNA Moleküls

– ADN Viewer

– Studium der räumlichen DNA Struktur

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003

Vielen Dank für Eure Aufmerksamkeit

Fragen?

Seite 1 Tomislav Grgat Patrick Gutbell

3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003