Vorlesung 2 Maschinenlernen: Klassische Ansätze I€¦ · M. Giese: Lernmethoden in Computergrafik...

Post on 02-Oct-2020

0 views 0 download

transcript

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Vorlesung 2

Maschinenlernen:Klassische Ansätze I

Martin Giese

Martin.giese@uni-tuebingen.de

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Übersicht

Statistische Formulierung desüberwachten LernproblemsEinfache KlassifikatorenAnwendung

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

I. Statistiche Formulierung des überwachten Lernenproblems

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Überwachtes Lernen aus Beispielen

LernerInputs Outputs

Beispiele: Datenpaare

Input 1Input 2Input 3

Output 1Output 2Output 3

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Überwachtes Lernen aus BeispielenBeispiel: Funktionenapproximation

Beispiele (Trainingsdaten)

Gesucht: Funktion f mit

Ziel: gute Vorhersage zukünftiger Testdaten

{ }),(...,,),(),,( 2211 LL yxyxyxT =

yyxf ≈= ˆ)(ˆ

{ }),(...,,),(),,( 2211 MM yxyxyxG =

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Überwachtes Lernen aus BeispielenBeispiel: Funktionenapproximation

x

Trainingsdaten

“wahre Funktion” )(xf

y

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Überwachtes Lernen aus BeispielenBeispiel: Funktionenapproximation

x

Trainingsdaten

“wahre Funktion”

Approximation der Funktion )(ˆ xf

)(xf

y

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Überwachtes Lernen aus BeispielenBeispiel: Funktionenapproximation

x

Neue Testdaten

“wahre Funktion”

Approximation der Funktion )(ˆ xf

)(xf

y

Generalisierung:

Vorhersage der Funktion an Stellen ohne Trainingsdaten

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Überwachtes Lernen aus BeispielenBeispiel: Funktionenapproximation

x

Neue Testdaten

“wahre Funktion”

Approximation der Funktion )(ˆ xf

)(xfGute

Generalisierung

y

Generalisierung:

Vorhersage der Funktion an Stellen ohne Trainingsdaten

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Überwachtes Lernen aus BeispielenBeispiel: Funktionenapproximation

x

Neue Testdaten

“wahre Funktion”

Approximation der Funktion )(ˆ xf

)(xfSchlechte

Generalisierung

y

Generalisierung:

Vorhersage der Funktion an Stellen ohne Trainingsdaten

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Regression: Ausgangsvariable y kontinuierlich

Univariate Regression: x eindimensional

Multiple Regression: x mehrdimensional

Klassifikation: Ausgangsvariable y diskret

Einklassen (binary)

Multiklassen (multiclass)

Überwachtes Lernen aus Beispielen

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Formulierung

Raum)geeigneter ,( . und YXYyXx ∈∈

Gemeinsame Verteilungsdichte über X x Y:

)()|(),( xpxypyxp = konstant aber unbekannt !

Trainingsdatenpaare: (aus dieser Verteilung)

{ }),(...,,),(),,( 2211 LL yxyxyxT =

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Formulierung

Rifkin (2002)p(y|x) definiert Verteilung im

Raum Y für festes x.

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Formulierung

Regression: x und y kontinuierlich

Viele wichtige Lernprobleme können als Funktionenapproximationaufgefasst werden.

Klassifikation: x kontinuierlich, y diskret x

y

y

x

“gehört zur Klasse”: 1

“gehört nicht zur Klasse”: -1

)(ˆˆ xfy =

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische FormulierungKostenfunktion (loss function)

*)),(ˆ(*),ˆ( yxfVyyV =wahrer Wert von y

Definiert die Kosten, wenn vorhergesagt wird und der wahre Wert y* ist.

Sinvoll: L minimal für *)(ˆˆ yxfy ==

y

*y y

V

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische FormulierungPopuläre Kostenfunktionen (Regression):L2-Fehler (L2 loss )

L1-Fehler (L1 loss )

ε-unempfindliche Fehlerfunktion

(ε-insensitive error)

2*)ˆ(*),ˆ( yyyyV −=*ˆ yy −

V

*ˆ yy −

V|*ˆ|*),ˆ( yyyyV −=

)0,|*ˆmax(|*),ˆ( ε−−= yyyyV*ˆ yy −

V

ε−ε

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische FormulierungPopuläre Kostenfunktionen (Klassifikation):

0-1-Fehler (0-1 loss )

“Scharnier”-Fehler (L1 hinge loss )

*)ˆ(*),ˆ( yyyyV −=θ

*ˆyy

V

)0*,ˆ1max(*),ˆ( yyyyV −=*ˆyy

V

1

>

=sonst.

0 falls 1)(

yyθ

* und ˆ von Vorzeichen gleiches

yy

1*±y

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Formulierung

Wahres Risiko (true risk)Entspricht dem Erwartungswert der Kostenfunktion

für gegebene Approximationsfunktion f(x):

Prädiziert erwartete Kosten für neue Datenpunkte

Problem: p(x,y) unbekannt

Dichteschätzung im allgemeinen Fall sehr aufwendig

∫= ),(),()),((][ yxdyxpyxfVfR Funktional !

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Formulierung

Klassische parametrische StatistikAnnahme, dass die prinzipielle Form der Verteilung

p(x,y) bekannt ist

Schätzung der freien Parameter aus den Daten

Klassische nichtparametrische Statistik

Verwendung von Kenngrössen, die unabhängig von

der Verteilungsform der Daten sind, und deren

Verteilung berechnet werden kann

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Formulierung

Empirisches Risiko (empirical risk)Gegeben: L Datenpaare (xl, yl)

Approximation des wahren Risikos:

Idee: Minimierung des empirischen Risiko

∑=

=L

lll yxfV

LfR

1emp )),((1][

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Formulierung

Statistische LerntheorieMinimierung des empirischen Risiko

Herleitung von Schranken für die Abweichung:

Schranken nichtparametrisch, d.h. unabängig von

der Form der Verteilung p(x,y)

][][ emp fRfR −

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

II. Einfache Klassifikatoren

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Aufbau eines typischen Klassifikationssystems

Bild Merkmalsextraktion

•Pixel•Kanten•Frequenzkom-ponenten

•…

Klassifikatorf(x)

x: Merkmalsvektor

y: Klassen-label

“fröhlich”

“böse”

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

MerkmalsraumKlasse 2

Merkmalsvektor Merkmalsraum

Klasse 1x2

Klasse 3 x1

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Merkmale

stark korreliertschlechtgut

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Nächster-Nachbar-Klassifikator (nearest neighbor classifier)

Klasse 2

Klasse 3

Klassen definiert durch TrainingsbeispieleZuordnung zu nächstliegendem Klassenzentrum

Trainingsbeispiele

Klasse 1x2

x1

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Problem

Klassen nicht immer um Lernbeispiele zentriert

Trainingsbeispielex1

x2

Klasse 1 Klasse 2

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Entscheidungsregionen

Klassifizieren entspricht Zuordung zu bestimmter Region im MerkmalsraumEntscheidungsgrenzen(decision boundaries)

x1 x1

x2

Entscheidungsgenze

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Diskriminantenfunktionen

Jede Klasse assoziiert mit einer Diskriminan-tenfunktion fk(x)Zuordnung des Mekmalsvekotors x zu der Klasse K mit

)(maxarg xfK kk=x1

x2

fk

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Diskriminantenfunktionen

Typische DiskriminantenfunktionenLinear: f(x) = wTx + b (linearer Klassifikator)

Polynominal (polynominaler Klassifikator)

Linearkombination von Basisfunktionen /

Kernfunktionen (Supportvektormaschine)

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische EntscheidungstheorieZiel: Konstruktion einer Enscheidungsregel f(x), die Datenpunkt x abbildet auf Klassenlabel, z.B. y∈{0, 1}.

Einfaches Beispiel: Indikatorfunktion

Kostenfunktion: Erwartung des Fehlers

= ist ungsregion Entscheidin falls 1

ist ungsregion Entscheidinnicht falls 0)(

0

0

RR

fxx

x

))5.0*()5.0)(((*)),(( −⋅−−= yxfyxfV θ1

10

0

1

1

0

0f(x)

y*

.1sonst 1* und 5.0 ˆ fallsoder 0* und 5.0 ˆ falls null

=>==<=

yf(x)yyf(x)y

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische EntscheidungstheorieGenerelles Schema (aus Signaldetektionstheorie):

1

10

0

Treffer(hit, positive)

f(x)

y*

Falscher Alarm(false alarm, false positive)

Korrekte Ablehnung

(correct rejection, negative)

Aussetzer(miss,

false negative)

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische EntscheidungstheorieBeispiel: Detektion von Massenvernichtungswaffen

Treffer(hit, positive)

Falscher Alarm(false alarm, false positive)

Korrekte Ablehnung(correct rejection,

negative)

Aussetzer(miss,

false negative)

y*: Realität

0: nicht vorhanden 1: vorhanden

1:gefun-denf(x):

Such-ergebnis 0:

nichtgefun-

den

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische EntscheidungstheorieBeispiel: Detektion von Massenvernichtungswaffen

1:gefun-den

1: vorhanden0: nicht vorhanden

Treffer(hit, positive)

f(x): Such-

ergebnis

y*: Realität

Falscher Alarm(false alarm, false positive)

Korrekte Ablehnung

(correct rejection, negative)

Aussetzer(miss,

false negative)

Keine MVW!

0:nicht

gefun-den

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Beispiel: Detektion von Massenvernichtungswaffen

Statistische Entscheidungstheorie

0: nicht vorhanden

Treffer(hit, positive)

Falscher Alarm(false alarm, false positive)

Korrekte Ablehnung(correct rejection,

negative)

Aussetzer(miss,

false negative)

y*: Realität

1: vorhanden

1:gefun-denf(x):

Such-ergebnis 0:

nichtgefun-

den

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Beispiel: Detektion von Massenvernichtungswaffen

Statistische Entscheidungstheorie

1:gefun-den

1: vorhanden0: nicht vorhanden

0:nicht

gefun-den

Treffer(hit, positive)

f(x): Such-

ergebnis

y*: Realität

Falscher Alarm(false alarm, false positive)

Korrekte Ablehnung

(correct rejection, negative)

Aussetzer(miss,

false negative)

KeineMVW!

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische EntscheidungstheorieBeispiel: Detektion von Massenvernichtungswaffen

1: vorhanden

Treffer(hit, positive)

Falscher Alarm(false alarm, false positive)

Korrekte Ablehnung

(correct rejection, negative)

Aussetzer(miss,

false negative)

y*: Realität

0: nicht vorhanden

1:gefun-denf(x):

Such-ergebnis 0:

nichtgefun-

den

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Entscheidungstheorie

Risikofunktion (true risk):

Annahme des klassischen Ansatzes:Wahrscheinlichkeitsdichte p(x|y) bekannt, bzw. aus den Daten schätzbar.

)10)(()01)(()1()0(

),(),()),((][

00

=∧=+=∧===∧∉+=∧∈=

= ∫

yxfPyxfPyRxPyRxP

yxdyxpyxfVfR

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Entscheidungstheorie

Hypothetisch: Optimale Entscheidungsfunktion ohne Daten x:

Nach Erhebung von Daten x:

=>=

== sonst 1

10 falls 0const)(

)P(y)P(yxf

=>=

= sonst 1

|1|0 falls 0)(

x)P(yx)P(yxf

“A-priori-Wahrscheinlichkeiten”der Klassenzugehörigkeit

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Statistische Entscheidungstheorie

Bayes-Theorem:

)()()|(

)(),()|(

xpypyxp

xpyxpxyp ==

)()1()1|()|1(

)()0()0|()|0(

xpyPyxpxyP

xpyPyxpxyP

====

====

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes Klassifikator

Optimale Entscheidungsregel:

Wahrscheinlichkeitsverhältnis (likelihood ratio):

==>==

= sonst 1

)1(1|)0(0| falls 0)(

y)Pyp(xy)Pyp(xxf

Diskriminantenfunktionen

==

>==

= sonst 1

)0()1(

1|0| falls 0)( yP

yP)yp(x)yp(x

xf

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes Klassifikator

Oft Diskriminantenfunktionen geschrieben alslog:

)0(ln0|ln())0(0|ln()(0 =+===== yP)yp(xy)Pyp(xxg

)1(ln1|ln())1(1|ln()(1 =+===== yP)yp(xy)Pyp(xxg

>

= sonst. 1

)(g )(g falls 0)( 10 xx

xf

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

110

0

C10

C01

C11

C00

f(x)

y*

Bayes Klassifikator

Erweiterung für allgemeinere Kostenfunktion:

)11)(()01)(()10)(()00)((][

1110

0100

=∧=+=∧=+=∧=+=∧==yxfPCyxfPC

yxfPCyxfPCfR

==

−−

>==

= sonst 1

)0()1(

1|0| falls 0)( 0010

1101

yPyP

CCCC

)yp(x)yp(x

xf

(Zuvor war: C00 = C11 = 0; C01 = C10 = 1.) (vgl. Duda & Hart & Stork, 2001)

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes KlassifikatorErweiterung für Multiklassenfall: L Klassen; y = l ; l ∈ {1…L}.

Kostenfunktion:

Diskriminantenfunktionen:

Entscheidungsregel:

=

= sonst 1

gew.) Klasserichtige (d.h. )( falls 0)),((

lxflxfV

)(|)( lyl)Pyp(xxgl ===

)(max arg xgy ll=

(oder log…)

(vgl. Duda & Hart & Stork, 2001)

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes KlassifikatorSpezialfall: Gauss-Verteilungen

Diskriminantenfunktionen: (falls Verteilungen charakterisiert durch Mittelwerte µl und Varianz σ)

Quadratischer Term derselbe für alle l:

⇒ g(x) = wTx + b

Linearer Klassifikator !

g

)(ln)2(2

1)(|ln)(

2 lyP

lyl)Pyp(

lTl

Tl

T

l

=++−=

===

µµxµxx

xx

σ

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Realisierung von Multi-klassenklassifikation durch Kaskadieren von binären KlassifikatorenVerschiedene HeuristikenProblem: Aussagen über Generalisierungsfehler schwierig

Hierarchische Klassifikatoren

(Nakajima et al., 2003)

Sehr ähnliche Ergebnisse für alle 3 Varianten.

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

III. Anwendung

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes Klassifikatoren für Objektdetektion(Schneiderman & Kanade, 2000)

Ziel: Detektion von Bildern in DatenbankenProbleme:– Variation der Ansichten– Variation der Beleuchtung– Formvariationen (z.B. Autos)2D bildbasiertHistogramme für verschiedene visuelle Attribute“Experten” für verschiedene AnsichtenScannen verschiedener Positionen

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes Klassifikatoren für Objektdetektion(Schneiderman & Kanade, 2000)

Separate Detektoren für 15 AnsichtenModellierung der Verteilungen falls Objekt präsent und nicht präsent durch HistogrammeLikelihood-Ratio-Entscheidungsregel (Bayes Klass.):

Vorteil: Normalisierung der Variation der Merkmale (feature)

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes Klassifikatoren für Objektdetektion(Schneiderman & Kanade, 2000)

Histogramme “lernen” p(feature|object)Problem: Hochdimensionale Vertei-lungen erfordern zu viele “Bins”Zerlegung in Einzelattribute:– Frequenz (Wavelet Pyramide)– Orientierung (hor. / vert.)– Position (Abtasten mit Überlappung;

Merkmalspos. relative zu Objekt)17 kombinierte Attribute aus je 8 Filterantworten; quantisiert in je 3 Level ~6500 bins

Position

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes Klassifikatoren für Objektdetektion(Schneiderman & Kanade, 2000)

Probabilistische Integration der Merkmale unterAnnahme der Unabhängigkeit:

Trainingsbilder normalisiert:– Grösse– Position– Beleuchtung (Wavelet-Pyramide)Zusätzliche synthetische Trainigsbilder(gewonnen durch Transformationen)

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Bayes Klassifikatoren für Objektdetektion(Schneiderman & Kanade, 2000)

Systematische Suche über verschiedene Positionen und Skalen oder “coarse-to-fine”-Strategie

Ergebnisse:Gesichter+Autos: > 92 % korrekte DetektionEines der besten z.Zt. bekannten Systeme

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

Wichtige Punkte (bitte behalten !)

Definition des LernproblemsNächster-Nachbar-KlassifikatorBayes-KlassifikatorHierarchische KlassifikatorenMerkmals-Histogramme

M. Giese: Lernmethoden in Computergrafik and Multimedia16 October 2003

LiteraturCherkassky, V., Mulier, F. (1998). Learning From Data. John-Wiley &

Sons Inc, New York.

Duda, R.O., Hart, P.E., Stork, D.G. (2001). Pattern Classification. John-Wiley & Sons Inc, New York.

Hastie, T., Tibshirani, R., Friedman, J. (2001). The Elements of Statistical Learning Theory. Springer, Berlin.

Nakajima, C., Pontil, M., Heisele, B. Poggio, T. (2003). Full-body person recognition system. Pattern Recognition 36, 1997-2006.

Schneiderman, H., Kanade, T. (2000) A Statistical Method for 3D Object Detection Applied to Faces and Cars. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

http://fpn.mit.edu/9.520Spring2002/ MIT Course 9.520: Statistical Learning Theory and Applications (T. Poggio, S. Mukherjee, R.Rifkin)