+ All Categories
Home > Documents > Kernfunktionen

Kernfunktionen

Date post: 07-Jan-2016
Category:
Upload: geona
View: 16 times
Download: 0 times
Share this document with a friend
Description:
Kernfunktionen. Wie funktioniert der Kern-Trick? Wann funktioniert der Kern-Trick? Warum?. Nicht-lineare Daten. Nicht-lineare Daten. Was tun? Neue SVM-Theorie entwickeln? (Neeee!) Lineare SVM benutzen? („ If all you‘ve got is a hammer, every problem looks like a nail “) - PowerPoint PPT Presentation
69
Universität Dortmund Lehrstuhl für künstliche Intelligenz Kernfunktionen Wie funktioniert der Kern-Trick? Wann funktioniert der Kern-Trick? Warum?
Transcript
Page 1: Kernfunktionen

Universität Dortmund

Lehrstuhl für künstliche Intelligenz

Kernfunktionen

Wie funktioniert der Kern-Trick?Wann funktioniert der Kern-Trick?

Warum?

Page 2: Kernfunktionen

Universität Dortmund

250 +2

Nicht-lineare Daten

Page 3: Kernfunktionen

Universität Dortmund

250 +3

Nicht-lineare Daten

Was tun?• Neue SVM-Theorie entwickeln? (Neeee!)• Lineare SVM benutzen? („If all you‘ve got is a

hammer, every problem looks like a nail“)• Transformation in lineares Problem!

x1

x2

(x1)2

x2

(x1,x2) = (x12,x2)

Page 4: Kernfunktionen

Universität Dortmund

250 +4

Kernfunktionen

• Erinnerung:

f(x) = iyi(xi*x)+b

• SVM hängt von x nur über Skalarprodukt x*x‘ ab.• Ersetze Transformation und Skalarprodukt *

durch Kernfunktion K(x1,x2) = (x1)*(x2)

n

i

n

jjijiji

n

ii xxyyL

1 121

1

)(

X Z

K

*

Page 5: Kernfunktionen

Universität Dortmund

250 +5

Der Kern-Trick

• K(x,x‘)=x*x‘ : X H• Das Skalarprodukt der Vektoren im

Merkmalsraum H entspricht dem Wert der Kernfunktion über den Beispielen.

• Welche Funktionen machen k(x,x‘)= (x)* (x‘) wahr?

Page 6: Kernfunktionen

Universität Dortmund

250 +6

Polynome

• Ein Monomial hat nur einen Term: xd

• Alle Produkte von d Vektorkomponenten ergeben Merkmalsraum H.2: 2 H 3

• Sei N die Anzahl der Buchstaben, d die Länge der Wörter, dann ist die Anzahl möglicher Wörter:

2122

2121 ,,, xxxxxx

)!1(!

!11

Nd

Nd

d

Nd

Page 7: Kernfunktionen

Universität Dortmund

250 +7

Der Trick

• Der Merkmalsraum ist sehr groß.• Abbildung der Beispiele in den Merkmalsraum

und dann Berechnen der Skalarprodukte zwischen den transformierten Beispielen ist sehr ineffizient.

• Eine Kernfunktion, die auf die Beispiele direkt angewandt dasselbe Ergebnis liefert, wäre effizient!

• Diese Kernfunktion ist hier (x*x‘)2

Page 8: Kernfunktionen

Universität Dortmund

250 +8

Skalarprodukt im Polynomraum

• Geordnete Monomials:2: 2 H 4

• Skalarprodukt im Merkmalsraum:

• Dies gilt allgemein für alle geordneten Produkte d-ten Grades der Komponenten von x: d(x)* d(x‘)=(x*x‘)d

122122

21212 ,,,,:)( xxxxxxxxx

2

212122

22

21

2122

)'*(

''2'')'(*)(

xx

xxxxxxxxxx

Page 9: Kernfunktionen

Universität Dortmund

250 +9

Beweis

d

dN

jjj

N

j

N

jjjjj

N

jjjjj

N

jdd

ddd

xx

xx

xxxx

xxxxxx

xxxxxxk

d

dd

d

dd

'*

'

'...'

'...'......)'(*)(

'*)'(*)()',(

1

1 1

11

1

11

11

1

Page 10: Kernfunktionen

Universität Dortmund

250 +10

Randbemerkung

• Gerade wurden Reihenfolgen unterschieden.

• Üblicherweise ist d aber ohne Doppelte.

• Eine Komponente, die Doppelte enthalten würde, wird durch die Wurzel skaliert.

• Die genaue Form von d ist aber egal: beide ergeben dieselbe Kernfunktion k(x,x‘)=(x*x‘)d

2122

212 2,,)( xxxxx

Page 11: Kernfunktionen

Universität Dortmund

250 +11

Verallgemeinerung

• Die Gram Matrix K für eine Funktion k:X2 und Beobachtungen x1,..., xm ist eine mm MatrixKij:=k(xi, xj)

• Eine (reellwertige) positiv definite Matrix ist eine mm Matrix K, für die für alle ci in gilt

• Eine Funktion XX , die sich für alle xi in X als positiv definite Gram Matrix mit symmetrischer Funktion k darstellen lässt, heißt Kernfunktion oder reproduzierender Kern oder Kovarianzfunktion.

0,

ji

ijji Kcc

Page 12: Kernfunktionen

Universität Dortmund

250 +12

Einfaches Beispiel

• So gelingt die Kernfunktion nicht: c1, c2=1

• So gelingt sie: Diagonale > Faktoren

• Eigenwerte müssen nicht-negativ sein.

01

10K

11

11K

Page 13: Kernfunktionen

Universität Dortmund

250 +13

Konstruieren in 2 Richtungen

• Gegeben eine Kernfunktion k, konstruiere einen Merkmalsraum, in den abbildet.Jede Kernfunktion kann als Skalarprodukt in einem anderen Raum betrachtet werden.

• Gegeben ein Merkmalsraum mit Skalarprodukt, konstruiere eine Kernfunktion k(x,x‘)= (x)* (x‘).Gelingt, weil für alle ci in und xi in X gilt:

0

)(*)(),(

2,

iii

i jjjii

jijiji

xc

xcxcxxkcc

Page 14: Kernfunktionen

Universität Dortmund

250 +14

Kernfunktionen praktisch

• Angabe von nicht nötig, einzige Bedingung: Kernmatrix (K(xi,xj))i,j=1...n muss positiv definit sein.

• Polynom: K(x,x‘) = (x*x‘)d

• Radial-Basisfunktion: K(x,x‘) = exp(-||x-x‘||2)• Neuronale Netze: K(x,x‘) = tanh(x*x‘+b)• Konstruktion von Spezialkernen durch Summen

und Produkte von Kernfunktionen, Multiplikation mit positiver Zahl, Weglassen von Attributen

Page 15: Kernfunktionen

Universität Dortmund

250 +15

RBF-Kernfunktion

xx0

exp(-1|x-x0|2)

xx0

exp(-10|x-x0|2)

Page 16: Kernfunktionen

Universität Dortmund

250 +16

Eigenschaften von RBF-Kernen

• Allgemeine Form: k(x, x‘)=f(d(x,x‘))• Funktion f kann außer Gauss z.B. auch B-Spline

sein.• Als Metrik d(x,x‘) wird auch gewählt• Bei ||x-x‘||2 oder ||x-x‘|| ist die RBF-Kernfunktion

invariant bezüglich Drehung und Verschiebung.• Das bedeutet, dass das Lernergebnis unabhängig

von dem Koordinatensystem unserer Daten ist.

'*'' xxxxxx

Page 17: Kernfunktionen

Universität Dortmund

250 +17

Mercer Bedingung• Es gibt eine Abbildung und eine Kernfunktion

gdw. für jedes g(x) mit finitem

gilt:

• Wenn die Mercer Bedingung nicht gilt, könnte die Hesse Matrix über den Beispielen indefinit werden.

ii

i xxxxk ')',(

dxxg 2

0')'()()',( dxdxxgxgxxk

Page 18: Kernfunktionen

Universität Dortmund

250 +18

Was wissen Sie jetzt?• Kernfunktionen berechnen das Skalarprodukt der

Beobachtungen in einem Merkmalsraum, ohne tatsächlich erst in den Merkmalsraum abzubilden. k(x,x‘)= (x)* (x‘)

• Polykern und RBF-Kern als Beispiele.• Der Kern-Trick: k(x,x‘) lässt sich allein aus x*x‘ berechnen.

• Eine Funktion XX , die sich für alle xi in X als positiv definite Gram Matrix mit symmetrischer Funktion k darstellen lässt, heißt Kernfunktion.

• Die Mercer Bedingung prüft, ob es sich um eine Kernfunktion handelt, also die Matrix positiv definit ist.

Page 19: Kernfunktionen

Universität Dortmund

250 +19

Duales weiches Optimierungsproblem

• Maximiere

m

iiii

m

i i

m

i

m

jjijiji

CiynBedingungedu

xxyyL

1

1 1 1

0:,0..

*)(

Page 20: Kernfunktionen

Universität Dortmund

250 +20

Optimierungsproblem mit Kern

• Erst minimierten wir w, dann maximierten wir das duale Problem, jetzt minimieren wir das duale Problem, indem wir alles mit –1 multiplizieren...

• Minimiere L'()

unter den Nebenbedingungen

m

iiji

m

i

m

jjiji xxKyy

11 1

,2

1

0

0

1

m

iii

i

y

C

Page 21: Kernfunktionen

Universität Dortmund

250 +21

Chunking

• Beispiele xi mit i = 0 können aus der Matrix gestrichen werden.– Finde alle diese Beispiele, lösche sie.– Löse das Optimierungsproblem für die verbleibenden.

• Iteratives Vorgehen:– Löse das Optimierungsproblem für die i 0 aus dem

vorigen Schritt und einige Beispiele, die die KKT-Bedingungen verletzen.

• Osuna, Freund, Girosi (1997): feste Matrixgröße.

Page 22: Kernfunktionen

Universität Dortmund

250 +22

Algorithmus für das Optimierungsproblem

• Berechnen wir L'(a) durch Gradientensuche!– Naiver Ansatz berechnet Gradienten an einem

Startpunkt und sucht in angegebener Richtung bis kleinster Wert gefunden ist. Dabei wird immer die Nebenbedingung eingehalten. Bei m Beispielen hat m Komponenten, nach denen es optimiert werden muss. Alle Komponenten von auf einmal optimieren? m2 Terme!

– Eine Komponente von ändern? Nebenbedingung verletzt.

Page 23: Kernfunktionen

Universität Dortmund

250 +23

Sequential Minimal Optimization

• Zwei Komponenten 1, 2 im Bereich[0,C]x[0,C] verändern!– Optimieren von zwei i

– Auswahl der i

Page 24: Kernfunktionen

Universität Dortmund

250 +24

KKT-Bedingungen einfach

• Notwendige und hinreichende Bedingungen an die Lösung des Optimierungsproblems: für alle i i = 0 gdw. yi f(xi) 1

i = C gdw. yi f(xi) 1

– 0 < i < C gdw. yi f(xi) = 1

C

C y1= y2

1 - 2 y1 y2

1 + 2

0

0

1

m

iii

i

y

C

Page 25: Kernfunktionen

Universität Dortmund

250 +25

2 optimieren

• Maximum der Funktion L' entlang der Geraden s 2 + 1 = d mit s= y2/y1

• Wenn y1=y2 ist s=1, also steigt die Gerade.Sonst s=-1, also fällt die Gerade.

• Schnittpunkte der Geraden mitdem Bereich[0,C]x[0,C]:– Falls s steigt: max(0; 2 + 1 – C) und min(C; 2 + 1 )

– Sonst: max(0; 2 - 1 ) und min(C; 2 - 1 + C)

– Optimales 2 ist höchstens max-Term, mindestens min-Term.

Page 26: Kernfunktionen

Universität Dortmund

250 +26

SMO

• Berechne 2 und gib die Schnittpunkte max, min der Diagonalen mit der Box an.

• 2.Ableitung von L‘ entlang der Diagonalen

• Wenn >0, wird das Minimum für 2 ausgerechnet, wobei E der Fehler f(x)- y ist:

• Beschneiden, so dass min 2neu‘ max

• Berechnen

212211 ,2,, xxkxxkxxk

21222

EEyneu

'222111neuneu yy

Page 27: Kernfunktionen

Universität Dortmund

250 +27

Randbemerkung

• Ein nicht positives kann dann auftreten, wenn – zwei Beispiele genau gleich aussehen oder– die Kernfunktion nicht der Mercer-Bedingung gehorcht.

Page 28: Kernfunktionen

Universität Dortmund

250 +28

Algorithmus

• Äußere Schleife -- 1 wählen

1. Alle Beispiele durchgehen: welche verletzen KKT-Bedingungen?

2. Non-bound Beispiele suchen (1 weder 0 noch C ):welche verletzen KKT-Bedingungen?Verändern bis alle non-bound Beispiele KKT-Bedingungen erfüllen!

3. Goto 1

– Innere Schleife -- 2 wählen

1. Wenn E1 > 0, Beispiel mit kleinem E2 suchen, wenn E1 < 0, Beispiel mit großem E2 suchen.

2. L‘() ausrechnen3. b ausrechnen

Page 29: Kernfunktionen

Universität Dortmund

250 +29

Satz von Osuna

• Der Algorithmus konvergiert, solange an jedem Schritt 2 Lagrange Multiplikatoren optimiert werden und mindestens einer davon verletzte vorher die KKT-Bedingungen.

Page 30: Kernfunktionen

Universität Dortmund

250 +30

Was wissen Sie jetzt?• Das Optimierungsproblem wird durch Optimieren je zweier

Lagrange-Multiplikatoren gelöst, äußere Schleife wählt ersten, innere zweiten Multiplikator.

• Sei =(1,..., m) eine Lösung des Optimierungsproblems. Wir wählen zum update:

• Optimales

• Prinzip des Optimierens: Nullsetzen der ersten Ableitung...• Der Algorithmus konvergiert, wenn vorher ein KKT-

Bedingung verletzte.

),(),(2),(

)()(

222111

2211222 xxKxxKxxK

yxfyxfy

)( 222111 yy

Page 31: Kernfunktionen

Universität Dortmund

250 +31

Was ist gutes Lernen?• Fauler Botaniker:

"klar ist das ein Baum – ist ja grün."– Übergeneralisierung– Wenig Kapazität– Bias

• Botaniker mit fotografischem Gedächtnis:"nein, dies ist kein Baum, er hat 15 267 Blätter und kein anderer hatte genau so viele."– Overfitting– Viel Kapazität– Varianz

• Kontrolle der Kapazität!

Page 32: Kernfunktionen

Universität Dortmund

250 +32

Bias-Varianz-Problem

• Zu kleiner Hypothesenraum: Zielfunktion nicht gut genug approximierbar (Bias)

• Zu großer Hypothesenraum: Zuviel Einfluss zufälliger Abweichungen (Varianz)

• Lösung: Minimiere obere Schranke des Fehlers:R() Remp() + Var()

Page 33: Kernfunktionen

Universität Dortmund

250 +33

Risikoschranke nach Vapnik

• Gegeben eine unbekannte Wahrscheinlichkeits- verteilung P(x,y) nach der Daten gezogen werden. Die Abbildungen xf(x, ) werden dadurch gelernt, dass bestimmt wird. Mit einer Wahrscheinlichkeit 1- ist das Risiko R() nach dem Sehen von l Beispielen beschränkt:

l

lRR emp

4/log1)/2log()()(

VC confidence

Page 34: Kernfunktionen

Universität Dortmund

250 +34

Strukturelle Risikoschranke

• Unabhängig von einer Verteilungsannahme. Alles, was die Schranke braucht, ist, dass Trainings- und Testdaten gemäß der selben Wahrscheinlichkeits- verteilung gezogen werden.

• Das tatsächliche Risiko können wir nicht berechnen.• Die rechte Seite der Ungleichung können wir

berechnen, sobald wir kennen. • Gegeben eine Menge Hypothesen für f(x,), wähle

immer die mit dem niedrigsten Wert für die rechte Seite der Schranke (Remp oder VC confidence niedrig).

Page 35: Kernfunktionen

Universität Dortmund

250 +35

Strukturelle Risikominimierung

1. Ordne die Hypothesen in Teilmenge gemäß ihrer Komplexität

2. Wähle in jeder Teilmenge die Hypothese mit dem geringsten empirischen Fehler

3. Wähle insgesamt die Hypothese mit minimaler Risikoschranke

Komplexität

Schranke() = Remp() + Var()

Varianz

Page 36: Kernfunktionen

Universität Dortmund

250 +36

Vapnik-Chervonenkis-Dimension• Definition: Eine Menge H von

Hypothesen zerschmettert eine Menge E von Beispielen, wenn jede Teilmenge von E durch ein hH abgetrennt werden kann.

• Definition: Die VC-Dimension einer Menge von HypothesenH ist die maximale Anzahl von Beispielen E, die von H zerschmettert wird.

• Eine Menge von 3 Punkten kann von geraden Linien zerschmettert werden, keine Menge von 4 Punkten kann von geraden Linien zerschmettert werden.

Page 37: Kernfunktionen

Universität Dortmund

250 +37

ACHTUNG

• Für eine Klasse von Lernaufgaben gibt es mindestens eine Menge E, die zerschmettert werden kann – NICHT jede Menge E kann zerschmettert werden!

• Zum Beweis der VC Dimension n muss man also zeigen:– Es gibt eine Menge E aus n Punkten, die von H

zerschmettert werden kann. VCdim(H)n– Es kann keine Menge E' aus n+1 Punkten geben, die von

H zerschmettert werden könnte. VCdim(H)n

Page 38: Kernfunktionen

Universität Dortmund

250 +38

VC-Dimension von Hyperebenen

Satz: Die VC-Dimension der Hyperebenen im Rn ist n+1.

Beweis:

• VCdim(Rn) n+1: Wähle x0 = 0 und xi = (0,...,0,1,0,...0). Für eine beliebige Teilmenge A von (x0,...,xn) setze yi = 1, falls xi A und yi = –1 sonst. Definiere w = ykxk und b = y0/2. Dann gilt wx0+b = y0/2 und wxi+b = yi+y0/2. Also: wx+b trennt A.

• VCdim(Rn) n+1: Zurückführen auf die beiden Fälle rechts.

Page 39: Kernfunktionen

Universität Dortmund

250 +39

VCdim misst Kapazität

• Eine Funktion mit nur 1 Parameter kann unendliche VCdim haben: H kann Mengen von n Punkten zerschmettern, egal wie groß n ist.

• H kann unendliche VCdim haben und trotzdem kann ich eine kleine Zahl von Punkten finden, die H nicht zerschmettern kann.

• VCdim ist also nicht groß, wenn die Anzahl der Parameter bei der Klasse von Funktionen H groß ist.

Page 40: Kernfunktionen

Universität Dortmund

250 +40

VC-Dim. und Anzahl der Parameter

• Setze f(x) = cos(x) und xi = 10-i, i=1...l, beliebiges l. Wähle yi{-1,1}. Dann gilt für =(1/2(1-yi)10i):

l

i

kii

kl

i

iik yyx

121

121 10)1(1010)1(

l

ki

kiik

k

i

kii yyy

121

21

1

121 10)1()1(10)1(

Vielfaches von 20 10-1+10-2+ =1/9(geometrische Reihe)

Page 41: Kernfunktionen

Universität Dortmund

250 +41

VC-Dim. und Anzahl der Parameter cos(xk)=cos(z) mit z[0,1/9] für yk=1 und z[1,10/9] für yk=-1

cos(x) zerschmettert x1,...xl

cos(x) hat unendliche VC-Dimension

Die VC-Dimension ist unabhängig von der Anzahl der Parameter!

2 31/9

cos

Page 42: Kernfunktionen

Universität Dortmund

250 +42

VC-Dimension der SVM

• Gegeben seien Beispiele x1,...,xln mit ||xi|| < D für alle i. Für die VC-Dimension der durch den Vektor w gegebenen optimalen Hyperebene h gilt:

VCdim(h) min{D2 ||w||2, n}+1• Die Komplexität einer SVM ist nicht nur durch die

Struktur der Daten beschränkt (Fluch der hohen Dimension), sondern auch durch die Struktur der Lösung!

Page 43: Kernfunktionen

Universität Dortmund

250 +43

Zusicherungen

• Strukturelle Risikominimierung garantiert, dass die einfachste Hypothese gewählt wird, die noch an die Daten anpassbar ist.

• Strukturelle Risikominimierung kontrolliert die Kapazität des Lernens (weder fauler noch fotografischer Botaniker).

• Die Strukturen von Klassen von Funktionen werden durch die VCdim ausgedrückt. Große VCdim große VC-confidence.

Page 44: Kernfunktionen

Universität Dortmund

250 +44

Was wissen wir jetzt?

• Kernfunktionen – eine Transformation, die man nicht erst durchführen und dann mit ihr rechnen muss, sondern bei der nur das Skalarprodukt gerechnet wird.

• Idee der strukturellen Risikominimierung:– obere Schranke für das Risiko– Schrittweise Steigerung der Komplexität

• Formalisierung der Komplexität: VC-Dimension• SRM als Prinzip der SVM• Garantie für die Korrektheit der Lernstrategie

Page 45: Kernfunktionen

Universität Dortmund

250 +45

Performanzschätzer

• Welches erwartete Risiko R() erreicht SVM?• R() selbst nicht berechenbar• Trainingsfehler (zu optimistisch – Overfitting)• Obere Schranke mittels VC-Dimension (zu locker)• Kreuzvalidierung / Leave-One-Out-Schätzer

(ineffizient)

Page 46: Kernfunktionen

Universität Dortmund

250 +46

Performanzschätzer II

• Satz: Der Leave-One-Out-Fehler einer SVM ist beschränkt durch Rl1o |SV| / n

• Beweis: Falsch klassifizierte Beispiele werden Stützvektoren. Also: Nicht-Stützvektoren werden korrekt klassifiziert. Weglassen eines Nicht-Stützvektors ändert die Hyperebene nicht, daher wird es auch beim l1o-Test richtig klassifiziert.

Page 47: Kernfunktionen

Universität Dortmund

250 +47

Performanzschätzer III• Satz: Der Leave-One-Out-Fehler einer SVM ist beschränkt

durch Rl1o |{i : (2iD2+i)1}| / n(D = Radius des Umkreises um die Beispiele im transformierten Raum).

• Beweis: Betrachte folgende drei Fälle:

=0, =0

>1, =C 0<<1, 0<<C

Page 48: Kernfunktionen

Universität Dortmund

250 +48

Fallstudie Intensivmedizin

• Städtische Kliniken Dortmund, Intensivmedizin 16 Betten, Priv.-Doz. Dr. Michael Imhoff

• Hämodynamisches Monitoring, minütliche Messungen– Diastolischer, systolischer, mittlerer arterieller Druck– Diastolischer, systolischer, mittlerer pulmonarer Druck– Herzrate– Zentralvenöser Druck

• Therapeutie, Medikamente:– Dobutamine, adrenaline, glycerol trinitrate, noradrenaline,

dopamine, nifedipine

Page 49: Kernfunktionen

Universität Dortmund

250 +49

Patient G.C., male, 60 years old Hemihepatektomie right

Page 50: Kernfunktionen

Universität Dortmund

250 +50

Wann wird Medikament gegeben?• Mehrklassenproblem in mehrere 2Klassen-Probleme

umwandeln:– Für jedes Medikament entscheide, ob es gegeben werden

soll oder nicht.– Positive Beispiele: alle Minuten, in denen das Medikament

gegeben wurde– Negative Beispiele: alle Minuten, in denen das Medikament

nicht gegeben wurde

Parameter: Kosten falscher Positiver = Kosten falscher Negativer

Ergebnis: Gewichte der Vitalwerte so dass positive und negative Beispiele maximal getrennt werden (SVM).

Page 51: Kernfunktionen

Universität Dortmund

250 +51

Beispiel: Intensivmedizin

• Vitalzeichen von Intensivpatienten

• Hohe Genauigkeit• Verständlichkeit?

368.4

00.15

00.13

00.26

00.79

00.8

00.121

00.86

00.174

177.0

134.0

026.0

016.0

015.0

001.0

019.0

014.0

)(

papmn

papdia

papsys

hr

cvp

artmn

artdia

artsys

xf

Page 52: Kernfunktionen

Universität Dortmund

250 +52

Wie wird Medikament dosiert ?

• Mehrklassenproblem in mehrere 2Klassenprobleme umwandeln: für jedes Medikament und jede Richtung (increase, decrease, equal), 2 Mengen von Patienten-daten:– Positive Beispiele: alle Minuten, in denen die Dosierung

in der betreffenden Richtung geändert wurde– Negative Beispiele: alle Minuten, in denen die Dosierung

nicht in der betreffenden Richtung geändert wurde.

Page 53: Kernfunktionen

Universität Dortmund

250 +53

Steigern von DobutamineARTEREN: -0.05108108119

SUPRA: 0.00892807538657973

DOBUTREX: -0.100650806786886

WEIGHT: -0.0393531801046265

AGE: -0.00378828681071417

ARTSYS: -0.323407537252192

ARTDIA: -0.0394565333019493

ARTMN: -0.180425080906375

HR: -0.10010405264306

PAPSYS: -0.0252641188531731

PAPDIA: 0.0454843337112765

PAPMN: 0.00429504963736522

PULS: -0.0313501236399881

Vektor w für k Attribute

Page 54: Kernfunktionen

Universität Dortmund

250 +54

Anwendung des Gelernten• Patientwerte

pat46, artmn 95, min. 2231...pat46, artmn 90, min. 2619

• Gelernte Gewichte für Dobutaminartmn -0,18...

)_(_1

bcalcsvmsigndecisionxwcalcsvm i

k

ii

svm_calc (pat46, dobutrex, up,min.2231,39) svm_calc (pat46, dobutrex, up,min.2619, 25)

b=-26, i.e. increase in minute 2231, not increase in minute 2619.

Page 55: Kernfunktionen

Universität Dortmund

250 +55

Steigern von Glyceroltrinitrat

368.4

02.1

79.1

0

91.77

0

0

0

0

0

0

00.15

00.13

00.26

00.79

00.8

00.121

00.86

00.174

015.0

784.0

334.0

033.0

391.2

017.0

542.0

185.0

047.1

543.9

177.0

134.0

026.0

016.0

015.0

001.0

019.0

014.0

broca

bsa

emergency

age

adrenaline

initrateglyceroltr

dopamie

dobutamie

inenoradrenal

nifedipine

papmn

papdia

papsys

hr

cvp

artmn

artdia

artsys

sign

Jedes Medikament hat einen Dosierungsschritt.Für Glyceroltrinitrat ist es 1, für Suprarenin (adrenalin) 0.01.Die Dosis wird um einen Schritt erhöht oder gesenkt.

Vorhersage:pred_interv(pat49, min.32,nitro, 1.0)

Page 56: Kernfunktionen

Universität Dortmund

250 +56

Evaluierung• Blind test über 95 noch nicht gesehener Patientendaten.

– Experte stimmte überein mit tatsächlichen Medikamentengaben in 52 Fällen

– SVM Ergebnis stimmte überein mit tatsächlichen Medikamentengaben in 58 Fällen

Dobutamine Actual up

Actual equal

Actual down

Predicted up 10 (9) 12 (8) 0 (0)

Predicted equal

7 (9) 35 (31) 9 (9)

Predicted down

2 (1) 7 (15) 13 (12)

Page 57: Kernfunktionen

Universität Dortmund

250 +57

SVMs für Regression

• Minimiere

• so dass für alle i gilt: f(xi) = w*xi+b yi + +i´ und f(xi) = w*xi+b yi - - i

n

ii

n

iiCw

11

2

f(x)

i´ f(x)-

f(x)+

Page 58: Kernfunktionen

Universität Dortmund

250 +58

Verlustfunktion

Q

f(x)-y- +

lineare Verlustfunktion quadratische Verlustfunktion

Q

f(x)-y

Page 59: Kernfunktionen

Universität Dortmund

250 +59

Duales Optimierungsproblem

• Maximiere

• unter 0 i,i´ C für alle i und i´ = i

• Mit yi{-1,+1}, =0 und i=0 für yi=1 und i´=0 für yi=-1 erhält man die Klassifikations-SVM!

n

jijijjii

n

iii

n

iiii xxKyW

1,

''21

1

'

1

' ),())(()()()(

Page 60: Kernfunktionen

Universität Dortmund

250 +60

Beispiel: Prognose von Zeitreihen

80

100

120

140

160

180

200

220

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100

Fenster Horizont

Page 61: Kernfunktionen

Universität Dortmund

250 +61

Prognose von Zeitreihen

• Trend• Zyklen• Besondere Ereignisse (Weihnachten, Werbung, ...)• Wieviel vergangene Beobachtungen?• Ausreißer

Page 62: Kernfunktionen

Universität Dortmund

250 +62

Abverkauf Drogerieartikel

0

20

40

60

80

100

120

140

160

01

|96

07

|96

13

|96

19

|96

25

|96

31

|96

37

|96

43

|96

49

|96

03

|9

7 09

|97

15

|97

21

|97

27

|97

33

|97

39

|97

45

|97

51

|97

05

|98

11

|98

17

|98

23

|98

29

|98

35

|98

41

|98

47

|98

53

|98

Week

Sal

es

Insect killers 1Insect killers 2Sun milkCandles 1Baby food 1BeautySweetsSelf-tanning creamCandles 2Baby food 2

Page 63: Kernfunktionen

Universität Dortmund

250 +63

Vorhersage Abverkauf

Gegeben Verkaufsdaten von 50 Artikeln in 20 Läden über 104 Wochen

Vorhersage Verkäufe eines Artikels, so dassDie Vorhersage niemals den Verkauf unterschätzt,Die Vorhersage überschätzt weniger als eine Faustregel.

Beobachtung: 90% der Artikel werden weniger als 10 mal pro Woche verkauft.

Anforderung: Vorhersagehorizont von mehr als 4 Wochen.

Page 64: Kernfunktionen

Universität Dortmund

250 +64

VerkaufsdatenShop Week Item1 ... Item50Dm1 1 4 ... 12Dm1 ... ... ... ...Dm1 104 9 ... 16Dm2 1 3 ... 19... ... ... ... ...Dm20 104 12 ... 16

LE DB1: I: T1 A1 ... A 50; Menge multivariater Zeitreihen

Page 65: Kernfunktionen

Universität Dortmund

250 +65

Vorverarbeitung

• Multivariat nach univariatLE1´: i:t1 a1 ... tk ak

For all shops for all items:Create view Univariate asSelect shop, week, itemi

Where shop=“dmj”From Source;

• Multiples Lernen

Dm1_Item1...

1 4 ... 104 9

Dm1_Item50 1 12... 104 16

....

Dm20_Item50 1 14... 104 16

Page 66: Kernfunktionen

Universität Dortmund

250 +66

Vorverarbeitung II• Viele Vektoren aus einer Reihe gewinnen durch

FensterLH5 i:t1 a1 ... tw aw

bewege Fenster der Größe w um m Zeitpunkte

Dm1_Item1_1Dm1_Item1_2

12

4...4...

56

78

...Dm1_Item1_100 100 6... 104 9

...

...Dm20_Item50_100 100 12... 104 16

Page 67: Kernfunktionen

Universität Dortmund

250 +67

SVM im Regressionfall • Multiples Lernen:

für jeden Laden und jeden Artikel, wende die SVM an. Die gelernte Regressionsfunktion wird zur Vorhersage genutzt.

• Asymmetrische Verlustfunktion :– Unterschätzung wird mit 20 multipliziert,

d.h. 3 Verkäufe zu wenig vorhergesagt -- 60 Verlust– Überschätzung zählt unverändert,

d.h. 3 Verkäufe zu viel vorhergesagt -- 3 Verlust

(Stefan Rüping 1999)

Page 68: Kernfunktionen

Universität Dortmund

250 +68

Horizont SVM exp. smoothing

1 56.764 52.40

2 57.044 59.04

3 57.855 65.62

4 58.670 71.21

8 60.286 88.44

13 59.475 102.24

Vergleich mit Exponential Smoothing

Verlust

Page 69: Kernfunktionen

Universität Dortmund

250 +69

Was wissen wir jetzt?

• Anwendung der SVM für die Medikamentenverordnung

• Idee der Regressions-SVM• Anwendung der SVM für die Verkaufsvorhersage

– Umwandlung multivariater Zeitreihen in mehrere univariate

– Gewinnung vieler Vektoren durch gleitende Fenster– Asymmetrische Verlustfunktion


Recommended