23.10.2002FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara...

transcript

23.10.2002 FB Mathematik, Universität Bielefeld 1

Strukturverarbeitende Neuronale Netze

Barbara Hammer,

AG LNM, Universität Osnabrück

Überblick

1. Einige Probleme aus der Bioinformatik

2. Lösungsansätze mithilfe neuronaler Netze

3. Mathematische Fragen beim Training

4. Lernbarkeit rekursiver Netzarchitekturen

5. Generell …

Einige Probleme aus der Bioinformatik …

WasserZucker

Backhefe

…TCGACTCCGTATTCGAC…

ACGCCUAGU…CUAGUCUU

RNA-Polymerase

… bindet an Promoter.Transkription: die DNA wird komplementär kopiert, …

…Introns werden abgespalten…

…und die mRNA verläßt den Zellkern.

Translation: Ribosomen bilden Codons auf Aminosäuren ab, ...

…UCACAGAGAGGUUUCCCUCACAGAGGGUUU…

Ser Gln Arg Gly Phe Pro His Arg Gly Cys...das Protein faltet sich zu einer 3D Struktur…

.. und steuert komplexe Prozesse.

Einige Probleme

… S.Cerevisiae ist seit 4/96 sequenziert (http://genome-www.stanford.edu/Saccharomyces)

Welche Abschnitte der DNA kodieren? Promoter, Exon/Intron

Wie falten sich die Aminosäuren? Sekundärstruktur, 3D-Struktur der Proteine

Lösungsansätze mithilfe neuronaler Netze …

Ein Neuron

σ(wtx - θ)

σ(t) = sgd(t) = (1+e-t)-1

σ(t) = H(t) mit

H(t) = 0 für t≤0 H(t) = 1 für t>0

Vorwärtsgerichtete neuronale Netze (FNN)…

fw :ℝn ℝo

… und deren Training …

Ziel: unbekanntes f:ℝn ℝo ist zu lernen

Beispiele f(x1),…,f(xm) sind verfügbar

Training:

1. Auswahl einer Netzarchitektur { fw | wℝW }

2. Optimieren der Gewichte w durch Minimieren des Fehlers ∑ (f(xi) - fw(xi)) 2 auf den Trainingsdaten

3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge

fw ≈ f

… zum Erkennen von Spleißstellen

… …Exon ExonIntron… G U … … A G …

(0,0,0,1;0,0,1,0 ;0,1,0,0 ;0,0,0,1)

0 0aus [Pertea,Lin,Salzberg,Nucleid Acid Research 29(5):1185-1190, 2001]

Beispielergebnisse (missed Pos/false Pos in %):

NetGene2: 6.4/4.6, 6.0/2.5 [Brunak et al.]0 1

d.h. f: ℝ4k ℝ2 ist zu lernen

Partiell rekurrente Netze (RNN)…

Eingab

ontext

Ausgabe

f:ℝn+cℝc

g:ℝcℝo

mit frec:(ℝn)*ℝc alsfrec([ ])=0frec([x|a])=f(x,frec(a))

g◦frec:(ℝn)*ℝo

Sequenzen über ℝn

Ziel: unbekanntes f:(ℝn)*ℝo ist zu lernen Beispiele f(x1),…,f(xm) sind verfügbar

Training:1. Auswahl einer Netzarchitektur

2. Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten

3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge

… zur Prognose der Sekundärstruktur von Proteinen

…SerGlnArgGlyPheProHisArgGlyCys…

α-helix

β-sheet

γ-coil

…α α β β β β β β β γ…

00000010..

01000000..

00010000..

d.h. f: Aminosäuren* {α,β,γ} ist zu lernen

… zur Prognose der Sekundärstruktur von Proteinen

…SerGlnArgGlyPheProHisArgGlyCys…

PDBx1 x2 x3 x4 x5 x6 x7 x8 x9 x10

EVA(3/3/2001)-Daten: 77.67% [Pollastri,Przybylski,Rost,Baldi,PROTEINS 47:228-235,2002]

vgl.: PROF1 76.8%, PHDpsi 74.7%

Rekursive Netze (RekNN)…

Ausgabe

f:ℝn+2cℝc

g:ℝcℝo

mit frec:(ℝn)2*ℝc als

frec(ξ) = 0frec(a(l,r)) = f(a,frec(l),frec(r))

g◦frec:(ℝn)2*ℝo

gerichtete azyklische Graphen

über ℝn mit einem Startknoten

und fan-out ≤ 2

Ziel: unbekanntes f:(ℝn)2*ℝo ist zu lernen Beispiele f(x1),…,f(xm) sind verfügbar Training:1. Auswahl einer Netzarchitektur2. Optimieren der Gewichte durch Minimieren des

Fehlers auf den Trainingsdaten3. Bewerten des Ergebnis durch den Fehler auf einer

nicht zum Training benutzten Validierungsmenge ... nebenbei: rekursive Netze unterscheiden nicht

zwischen Bäumen und Graphen

… zur Prognose von Kontakten

x1x2x3x4x5x6x7x8x9x10…

(x2,x3)

1 0 0 0 0 0 0 0 0 0 …0 1 0 0 0 0 0 0 1 1 …0 0 1 0 0 0 0 0 1 0 …0 0 0 1 0 0 0 0 0 0 …0 0 0 0 1 1 0 0 0 0 …0 0 0 0 1 1 1 0 0 0 …0 0 0 0 0 1 1 1 0 0 …0 0 0 0 0 0 1 1 1 0 …0 1 1 0 0 0 0 1 1 1 …0 1 0 0 0 0 0 0 1 1 …

x1x2x3x4x5x6x7x8x9x10…

(x2,x2)

(x1,x1)

(x1,x2)

(x1,x3)(x2,x1)

d.h. f: (Aminosäuren2)2* {0,1} ist zu lernen

… zur Prognose von Kontaktenx1x2x3x4x5x6x7x8x9x10…

SSProX1X2X3…

……

[Pollastri,Baldi,Vullo,Frasconi, NIPS2002]

PDBselect:(Ct,nCt,dist.truePos)

6Ǻ: 0.71,0.998,0.59

12Ǻ: 0.43,0.987,0.55

Mathematische Fragen beim Training …

Training - Architekturauswahl

f: Xℝo ist zu lernen, gegeben f(x1),…,f(xm)

1. Architekturauswahl f ≫ ε

z.z. Approximationsvollständigkeit: Für jede (sinnvolle) Funktion f und jedes ε>0 gibt es ein Netz, daß f bis auf ε (in geeigneter Norm) approximiert

Approximationsergebnisse

FNNs/RNNs [Hornik,Stinchcombe,White; Funahashi,Nakamura]: … können jede stetige Funktion beliebig gut auf Kompakta und

endlichem Zeithorizont bzgl. L1 approximieren (σ:squashing)

RekNNs für Baumstrukturen [Hammer]: … können jede stetige Funktion beliebig gut auf Kompakta und

begrenzter Höhe bzgl. L1 approximieren (σ:squashing)

… können jede endliche Menge {f(x1),…,f(xm)} mit O(m2) Neuronen exakt interpolieren (σ:squashing, C2 in Umgebung von x mit σ‘‘(x)≠0)

... können nicht jede Funktion f:{1}2*{0,1} approximieren (bei realistischer Aktivierungsfunktion)

Training - Fehlerminimierung

f:Xℝo ist zu lernen, gegeben f(x1),…,f(xm)

1. Architekturauswahl

2. Fehlerminimierung

Komplexität des Trainings: gegeben eine Architektur {fw|w} und eine Trainingsmenge, finde Parameter w so daß fw(xi) möglichst gut mit f(xi) übereinstimmt

Komplexitätsergebnisse

Für feste Architektur mit Aktivierungsfunktion H: … Training ist polynomiell

Für variable FNN-Architekturen mit Aktivierungsfunktion H:

… optimale Parameter zu finden ist NP-hart [Judd]

… sogar für Architekturen {(n,2,1)|nℕ} [Blum,Rivest]

… sogar für Architekturen {(n,n1>1,n2,…,1)|nℕ} [Hammer]

… sogar für logistische Aktivierungsfunktion statt H [Jones;Vu;Hammer]

… sogar, wenn man nur approximative Lösungen sucht [Bartlett,Ben-

David;DasGupta,Hammer]

Training - Validierung

f:Xℝo ist zu lernen, gegeben f(x1),…,f(xm)

1. Architekturauswahl

2. Fehlerminimierung

3. Validierung

TATATATATATATATATATATATATATATATA

Trainingsfehler = Validierungsfehler

TATATATATATATATA CTACCACAGATATATSCCHRIII 12335ff

Lernbarkeit rekursiver Netzarchitekturen …

Lernszenario

unbekannte Funktion f ℱ sei zu lernen (alles sei meßbar)

Funktionenklasse ℱ = { g:(ℝn)2* {0,1} | g } sei fest gewählt

P℘ unbekannte Verteilung auf (ℝn)2* für die Daten

(x,f) = ((x1,f(x1)),…,(xm,f(xm))) mit x1,…,xm i.i.d. gemäß P

h: Um((ℝn)2*x {0,1})m ℱ, (x,f) hm(x,f)

hm(x,f) ≈ f für genügend große m

Lernalgorithmus:

Lernszenario

dP(f,g) = |f(x)-g(x)| dP(x) dm(f,g,x) = i |f(xi)-g(xi)| / m

• h ist PAC (probably approximately correct):⇔

∀ℇ>0 supf ℱ Pm(x | dP(f,hm(x,f)) > ) ℇ 0 (m∞) „h generalisiert mit von der zu lernenden Funktion unabhängigen Schranken“

• ℱ ist UCED (uniform convergence of empirical distances):⇔

∀ℇ>0 Pm(x | f,g∃ |dℱ P(f,g)-dm(f,g,x)| > ) ℇ 0 (m∞)

„genau die Algorithmen mit kleinem Trainingsfehler sind gut“

• ℱ ist PAC lernbar :⇔ h: ∃ h PAC „es gibt einen guten Algorithmus“

Lernszenario

• h ist verteilungsunabhängig PAC :⇔

∀ℇ>0 supp℘supfℱPm(x|dP(f,hm(x,f))> ) ℇ 0 (m∞)

• ℱ ist verteilungsunabhängig UCED:⇔

∀ℇ>0 supp℘Pm(x| f,g∃ |dℱ P(f,g)-dm(f,g,x)|> ) ℇ 0 (m∞)

• ℱ ist verteilungsunabhängig PAC lernbar :⇔

∃h: h verteilungsunabhängig PAC

ℱ PAC

ℱ vert.unabh. PAC

ℱ vert.unabh. UCED

ℱ UCED

VC( ) < ℱ ∞

~VC(ℱ) Beispiele

VC(ℱ) := max mℕ{∞} x∃ 1,…,xm d:{x∀ 1,…,xm} {0,1} ∃f : f|{xℱ 1,…,xm} = d

„maximale Anzahl von Punkten, auf denen jede mögliche Abbildung durch ℱ realisiert werden kann“

VC(ℱ|Xt) = O(W·N+W·ln W+W·t) σ=H

O(W2N222t) σ=sgd

Ω(W·ln W+W·t) σ=H

Ω(W·t2+W·ln W) σ=sgd

VC Dimension rekursiver Architekturen

ℱ rekursive Netzarchitektur mit W Gewichten, N Neuronen

Xt (⊂ ℝn)2* Bäume der Maximalhöhe t

ℱ PAC

ℱ vert.unabh. PAC

ℱ UCED

„für allgemeine rekursive Netzarchitekturen kann es keine von der Verteilung unabhängigen a priori Schranken für den Generalisierungsfehler geben“

Überdeckungszahl N( ,X,d)ℇ := minimale Anzahl Punkte, um X bis auf bzgl. ℇd zu überdecken

limm∞Ex(log N( , |ℇ ℱ x,dm))/m0

Fehlerwahrsch.UCED ≤ Ex(N( /16, |ℇ ℱ x,d2m)2)

exp(-mℇ2/32)

UCED für rekursive Architekturen

Sei pt:=P(Xt). Seien ,ℇ δ>0. Gelte pT≥1- /8. Dann istℇ

Pm(x | f,g∃ ℱ |dP(f,g)-dm(f,g,x)| > ) ℇ ≤ δ

für m = O(ℇ-2δ-1 + VC( |Xℱ T)·ℇ-2ln(ℇ-1ln ℇ-1))

ℱ PAC

ℱ vert.unabh. PAC

ℱ UCED

~VC( |Xℱ T) für pT≥1- /8ℇ

polynomiell, falls für ein β>0, c>0 gilt 1-pt<c·t-β, σ=H bzw.1-pt<c·2-2βt, σ=sgd

„jeder Algorithmus mit kleinem Fehler generalisiert, die Schranken hängen von der Verteilung ab“

Aber: es gibt Beispiele, wo jeder Algorithmus für gute Generalisierung exponentiell viele Trainingsmuster benötigt.

Lernbarkeit rekursiver Architekturen

… die VC Dimension hängt von den Eingaben ab, der Validierungsfehler kann nicht a priori unabhängig von der Verteilung abgeschätzt werden.

… jeder Algorithmus mit kleinem Trainingsfehler generalisiert, die Schranken hängen von der Verteilung ab.

... a posteriori Schranken für beliebigen Lernalgorithmus h:

inff Pm(x| |dm(f,hm(x,f),x)-dP(f,hm(x,f))| < (ℇ x)) >1-δ für

ℇ2(x) = O(m-1log δ-1log m + d·m-1log(m·log m)), d=VC(ℱ|XT), T

max.Höhe in x

… bzw. (ℇ x) = O(β + (β·log β-1+ log m(m-1log δ-1)0.5 + d·m-1log(m/β·log m/β))0.5), d=VC(ℱ|XT), T max.Höhe von Anteil (1-β) von x

… analoge Ergebnisse gelten für Funktionenklassen und allgemeinere (z.B. Lipschitz-stetige) Fehlerfunktionen

… verteilungsunabhängig UCED kann in speziellen Situationen gelten, z.B. für rekurrente Netze mit Kontraktion

… man kann nach dem Training den Fehler abschätzen, wenn man die Maximalhöhe in der Trainingsmenge kennt

… sogar mit Schranken, die wirklich gegen Null gehen

… auch für die wirklich relevanten Szenarien geht‘s …

[Hammer] bzw. [Hammer,Tino]

Generell …

Backpropagation-Netze für StrukturdatenAnwendungen – z.B.Bioinformatik, Simulation biologischer Prozesse

Selbst-organisierende Verfahren

Theorie – z.B.Lernbarkeit, Komplexität, Approximation

TODO: Verbesserte Trainingsalgorithmen mit Gütegarantien

TODO: Theoretische Unter- suchung und Qualitäts-kriterien, Verbesserung und Anwendungen

Kooperationen: USA, Indien,

England

Kooperationen: England, Bielefeld

GRLVQ für technische Sys-teme, Bildverarbeitung, … SOMs mit Rekurrenz

Kooperationen: USA, Leipzig,Prognost,Italien

Theorie – uniforme Formulierung, Kostenfunktion, induzierte Metrik, Topologieerhaltung

Kooperationen: Leipzig, Italien

forcem

tlearn

ing, Le

uristiken z.B

. für O

VC Dimension rekursiver ArchitekturenVC(ℱ|Xt) = Ω(W·ln W+W·t) für σ=H

00001111

00110011

01010101

si+(2,4,6,…,2t)

frek mit f(x,c1,c2)=

(c1 c∨ 2 x∨ [0.5+2j,1.5+2j])

fw(m,x,c1,c2)=

(f(x,c1,c2) (m=w))∧

FNN für W·ln W

UCED für rekursive Architekturen

Sei pt:=P(Xt). Seien ,ℇ δ>0. Gelte pT≥1- /8. Dann istℇ

Pm(x | f,g∃ ℱ |dP(f,g)-dm(f,g,x)| > ) ℇ ≤ δ

für m = O(ℇ-2δ-1 + VC( |Xℱ T)·ℇ-2ln(ℇ-1ln ℇ-1))

Bew: Pm(x | f,g∃ ℱ |dP(f,g)-dm(f,g,x)| > )ℇ

≤ Pm(x | <m‘ Punkte aus x in XT)) m‘:=m(1- /4)ℇ+ P‘m‘(x‘ | f,g∃ |Xℱ T |dP‘(f,g)-dm‘(f,g,x‘)| > /4ℇ ))

P‘:=P|XTℇ/4 ℇ/2

≤ pt(1-pt)/(m‘ℇ2) + 2Ex‘(2N( /64, |ℇ ℱ x‘,d2m‘)2)exp(-m‘ℇ2/512)

≤ pt(1-pt)/(m‘ℇ2) + 4(256 e/ℇ·ln(256 e/ ))ℇ dexp(-m‘ℇ2/512)

d=VC( |Xℱ T)

23.10.2002FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara...

Documents