Clusteranalyse - Technische Universität Chemnitz Multivariate Verfahren SS 2010 Seminarleiter: Dr....

transcript

23.06.2010

Seminar Multivariate Verfahren SS 2010

Seminarleiter: Dr. Thomas Schäfer

Theresia Montag, Claudia Wendschuh & Anne Brantl

Clusteranalyse

Gliederung

1. Einführung

2. Vorgehensweise

1. Bestimmung der Ähnlichkeiten

2. Auswahl des Fusionierungsalgorithmus

3. Bestimmung der Clusteranzahl

3. Anwendungshinweise

4. Abgrenzung zu Faktorenanalyse

5. Fallbeispiel & SPSS

23.06.2010

ANWENDUNG

Medizin

Archälogie

SoziologieEthnologie

Linguistik

Biologie

1. Einführung

Musik kann Emotionen auslösen

unterschiedliche Musikstile – unterschiedliche Affekte?

Stimmung induzieren

Lassen sich Musiktitel bezüglich der Affekte, die sie auslösen,

in Gruppen einteilen?

1. Einführung

23.06.2010

1. Einführung

Was ist eine Clusteranalyse?

Vielzahl von Techniken & Verfahren zur systematischen

Klassifizierung

Grundlage & Datenmaterial:

Personen oder Objekte

Eigenschaften/Merkmale

Ziel der Clusteranalyse:

Zusammenfassung von Personen oder Objekten

aufgrund ihrer Eigenschaften und unter Einbeziehung

ihrer Ähnlichkeit in Gruppen bzw. Cluster

Die Cluster sollten…

Analyse einer heterogenenObjektgesamtheit

Identifizierung homogenerTeilmengen von Objekten

aus Objektgesamtheit

hohe Ähnlichkeit

geringe Ähnlichkeit

hohe Ähnlichkeit

1. Einführung

Was ist eine Clusteranalyse?

23.06.2010

• Prüfung der Ausprägungen der Beschreibungsmerkmale für jeweils 2 Personen/Objekte

• Messung der Unterschiede/Übereinstimmungen durch Proximitätsmaße

(1) Bestimmung von Ähnlichkeiten

• Zusammenfassung der Fälle zu Gruppen auf Grundlage der Ähnlichkeitswerte

(2) Auswahl des Fusionierungsalgorithmus

• beste Lösung der Clusteranzahl finden

• Zielkonflikt: Handhabbarkeit (geringe Clusteranzahl) vs. Homogenitätsanforderungen (große Clusteranzahl)

(3) Bestimmung der Clusteranzahl

2. Vorgehensweise

Variable1 Variable2 …. Variable J

Objekt 1

Objekt 2

Objekt K

Ähnlichkeitsermittlung zwischen jeweils 2

Objekten anhand eines Proximitätsmaßes

Rohdatenmatrix

Ähnlichkeits- oder Distanzmatrix

Grundidee

Objekt 1 Objekt 2 …. Objekt K

Objekt 1

Objekt 2

Objekt K

Überführung

23.06.2010

Proximitätsmaße

Ähnlichkeitsmaße

• messen Ähnlichkeit zwischen 2 Objekten

• je größer Wert des Ähnlichkeitsmaßes, desto ähnlicher 2 Objekte

Distanzmaße

• messen Unähnlichkeit zwischen 2 Objekten

• je größer Distanz, desto unähnlicher 2 Objekte

… sind Maße, die eine Quantifizierung der

Ähnlichkeit oder Distanz zwischen den Objekten

ermöglichen

Proximitätsmaße

bei Nominal-Skalen

RR-Koeffizient

M-Koeffizient

Kulczynski-Koeffizent

bei metrischen Skalen

L1-Norm

L2-Norm

Mahalanobis-Distanz

Q-Korrelations-Koeffizient

Proximitätsmaße

Tanimoto-Koeffizient

Dice-Koeffizient

23.06.2010

Ähnlichkeitsermittlung bei

binärer Variablenstruktur

Spezialfall nominales Skalenniveau

Vergleich von jeweils 2 Objekten über alle

Merkmalsausprägungen hinweg

Unterscheidung von 4 Fällen:

Objekt 1

ZeilensummeEigenschaft

vorhanden (1)

Eigenschaft nicht

vorhanden (0)

t 2 Eigenschaft

vorhanden (1)a c a+c

Eigenschaft nicht

vorhanden (0)b d b+d

Spaltensumme a+b c+d m

Objekt 1 1 1 1 1 0 0 1 0

Objekt 2 1 1 0 1 0 1 0 1

Objekt 3 1 0 1 1 0 0 1 03x beide vorhanden

2x nur bei Objekt 1 vorhanden

2x nur bei Objekt 2 vorhanden

Rohdatenmatrix

1x beide nicht vorhanden

23.06.2010

misst den relativen Anteil gemeinsamer Eigenschaften

Berechnung:

Rohdatenmatrix

Ähnlichkeitsmaße

a) Tanimoto-Koeffizient (Jaccard-Koeffizient):

a + b + cV

Objekt 1 1 1 1 1 0 0 1 0

Objekt 2 1 1 0 1 0 1 0 1

Objekt 3 1 0 1 1 0 0 1 0

b = 2 c = 2

+ + 0,429

Objekt 1 Objekt 2 … Objekt K

Objekt 1 1

Objekt 2 1

Objekt K 1

misst den relativen Anteil gemeinsamer Eigenschaften

Berechnung:

Ähnlichkeitsmatrix (Tanimoto-Koeffizient)

Ähnlichkeitsmaße

a) Tanimoto-Koeffizient (Jaccard-Koeffizient):

a + b + c

+ + 0,429

23.06.2010

Ähnlichkeitsmaße

a) Tanimoto-Koeffizient (Jaccard-Koeffizient)

b) RR-Koeffizient (Russel & Rao):

c) M-Koeffizient (Simple Matching):

+ Eigenschaft vorhanden

- Eigenschaft nicht vorhanden

Berechnung:a

a + b + c + d

Berechnung:a + d

a + b + c + d

Objekt 1

Objekt 2 + -

Wann verwende ich welches Ähnlichkeitsmaß ?

Vorhandensein eines Merkmals besitzt dieselbe

Aussagekraft für die Gruppierung wie das

Nichtvorhandensein

z.B. Verwendung des M- Koeffizienten

Vorhandensein eines Merkmals besitzt höhere

Aussagekraft für die Gruppierung wie das

Nichtvorhandensein

Verwendung des Tanimoto-Koeffizienten

a + b + c

a + b + c + d

23.06.2010

Proximitätsmaße

bei Nominal-Skalen

RR-Koeffizient

M-Koeffizient

Kulczynski-Koeffizent

bei metrischen Skalen

L1-Norm

L2-Norm

Mahalanobis-Distanz

Q-Korrelations-Koeffizient

Proximitätsmaße

Dice-Koeffizient

Voraussetzung: vergleichbare Maßeinheiten

Berechnung:

metrischer Variablenstruktur

Betrachtung der „Distanz“ zur Beschreibung der Beziehung zwischen 2 Objekten 2 Objekte sind ähnlich, wenn Distanz sehr klein ist

2 Objekte sind unähnlich, wenn Distanz sehr groß ist

Distanzmaße

a) Minkowski-Metriken (L-Normen):

d = Σ x - x k, l

j=1 kj lj

Distanz der

Objekte k und l

Wert der Variablen j bei

Objekt k, l (j=1,2,…J)

r > 1 : Minkowski-Konstante

City-Block-Metrik (L1-Norm)

Euklidische Distanz (L2-Norm)

23.06.2010

Variable 1 Variable 2 Variable 3

Objekt 1 1 2 1

Objekt 2 2 3 3

Objekt 3 3 4 6

d2 = + +

Beispiel Berechnung quad. Euklidische Distanz:

Rohdatenmatrix:

Distanzmaße

Objekt 1, Objekt 2 1 - 2 2 - 3 1 - 3

= 12 + 12 + 22

Objekt 1 Objekt 2 Objekt 3

Objekt 1 0

Objekt 2 0

Objekt 3 0

d2 = + +

Beispiel Berechnung quad. Euklidische Distanz:

Distanzmaße

Objekt 1, Objekt 2 1 - 2 2 - 3 1 - 3

= 12 + 12 + 22

= Distanzmatrix (entsprechend der quadrierten Euklidischen Distanz):

23.06.2010

Ähnlichkeitsmaß

b) Q – Korrelationskoeffizient:

r = Σ (x - x ) (x - x )

k jl l.

Σ (x - x ) Σ(x - x )

2 2 ½k, l

j=1 j=1

Ausprägung der Eigenschaft j bei Objekt

(Cluster) k (bzw. 1), wobei: j = 1,2,…,J

Durchschnittswerte aller Eigenschaften

bei Objekt (Cluster) k (bzw. 1)

Anwendung der

Proximitätsmaße

Person A Person B

Ausprägung

Big Five

Distanzmaße

• absolute Abstand zwischen Objekte von Interesse

• Unähnlichkeit dann als größer anzusehen, wenn 2 Objekte weit entfernt voneinander liegen

Ähnlichkeitsmaße

• primärer Ähnlichkeitsaspekt im Gleichverlauf zweier Profile ersichtlich

• unabhängig vom Niveau der Objekte

23.06.2010

Zwischenfazit

RohdatenmatrixÄhnlichkeits- oder

Distanzmatrix

Quantifizierung der

Ähnlichkeit

Proximitätsmaße

Ähnlichkeits-

Distanz-

nominal

skaliert

metrisch

skaliert

M-Koeffizient

RR-Koeffizient

L1-Norm

L2-Norm

Q-Korr.-Koeff.

2. Vorgehensweise

23.06.2010

2.2 Auswahl des

Fusionierungsalgorithmus

Cluster-verfahren

Graphentheo-retische

Verfahren

Hierarchische Verfahren

agglomerativ

Single-Linkeage

Complete-Linkeage

Average-Linkeage

Centroid

Median

divisiv

Partitionieren-de Verfahren

Austausch-verfahren

Iteriertes Minimaldistanz

-Verfahren

Optimierungs-verfahren

Partitionierende Verfahren

Versuch besserer Lösung durch Objektverlagerung zwischen

Gruppen auf Basis vorgegebener Gruppeneinteilung

Ende der Clusterung

wenn alle Objekte bzgl. Verlagerung untersucht wurden und

keine Verbesserung des Varianzkriteriums mehr möglich ist

• Objekt 1

• Objekt 2

Gruppe A

• Objekt 2

• Objekt 3

Gruppe B

23.06.2010

2.2 Auswahl des

Cluster-verfahren

Graphentheo-retische

Verfahren

agglomerativ

Single-Linkeage

Complete-Linkeage

Average-Linkeage

Centroid

Median

divisiv

Partitionieren-de Verfahren

Austausch-verfahren

Iteriertes Minimaldistanz

-Verfahren

Optimierungs-verfahren

- agglomerative Verfahren -

Start mit der feinsten Partition

Berechnung der Ausgangsdaten-

matrix

Suche nach den beiden Objekten

/Clustern mitgeringster Distanz

Zusammenfassung d. Objekte /

Cluster zu einerGruppe

Berechnung neuer Abstände und

Veränderung der Distanzmatrix

Alle Untersuchungs-objekte in einer

Gruppe

23.06.2010

Single-Linkage (Nearest-Neighbour-Verfahren) und

Complete-Linkage (Furthest-Neighbour-Verfahren)

Formel zur Berechnung der neuen Distanz:

D(R;P+Q) = 0,5 {D(R;P) + D(R;Q)

I D(R;P) - D(R;Q) I}

D(R; P+Q) = min {D(R,P);D(R,Q)}

D(R;P+Q) = 0,5 {D(R;P) + D(R;Q)

I D(R;P) - D(R;Q) I}

D(R; P+Q) = max {D(R,P);D(R,Q)}

Merkmal 2

Single-Linkage (Nearest-Neighbour-Verfahren)

23.06.2010

Complete-Linkage (Furthest-Neighbour-Verfahren)

Ausreißer erkennen

Kettenbildung

Single-Linkage

Bildung kleiner Gruppen

nicht geeignet um Ausreißer zu erkennen

Complete-Linkage

23.06.2010

Ward-Verfahren (weite praktische Verbreitung)

Zielkriterium für die Zusammenfassung von Objekten "Vereinige diejenigen Objekte (Gruppen), die die Fehlerquadratsumme/ Streuung in einer

Gruppe am wenigsten erhöhen„ (Bildung möglichst homogener Cluster)

Formel zur Berechnung der neuen DistanzD (R; P+Q) = 1/ NR + NP + NQ x

{(NR + NP) x D(R,P) + (NR + NQ) x D(R,Q) - NR x D(P,Q)

Unterscheidung Ward-Verfahren

Art der neuen Distanzbildung

Vorgehensweise bei Fusion der

Gruppen

Ward-Verfahren

23.06.2010

Zwischenfazit

Verfahren EigenschaftProximitäts-

maßeBemerkungen

Single-Linkage kontrahierend alleneigt zur

Kettenbildung

Complete-Linkage dilaterierend alleneigt zu kleinen

Gruppen

Average-Linkage konservativ alle -

Ward konservativ Distanzmaßebildet etwa gleich

große Gruppen

2. Vorgehensweise

23.06.2010

Entscheidung, welche Clusterlösung zu wählen ist

zumeist keine sachlogisch begründbare Vorstellungen

statistische Kriterien

Entwicklung des Heterogenitätsmaßes (z.B. Fehlerquadratsumme)

graphische Verdeutlichung: Dendrogramm

Elbow-Kriterium

sachlogische Kriterien

Homogenitätsanforderung an die Clusterlösung vs.

Handhabbarkeit der Clusterlösung

Auswahl Anzahl der Cluster, nicht Auswahl von Fällen

Bestimmung der Clusteranzahl

Entwicklung des Heterogenitätsmaßes (z.B.

Fehlerquadratsumme)

„Sprünge“

23.06.2010

graphische Verdeutlichung: Dendrogramm

Elbow-Kriterium

1 2 3 4 5 6 7 8

Zahl der Cluster

23.06.2010

2. Vorgehensweise

Ausreißer

relevante Merkmale

Gewichtung der Merkmale

Korrelation der Merkmale

unterschiedliches Skalenniveau

Gütemaße

3. AnwendungshinweiseSingle-Linkage

Vorschalten

Faktorenanalyse

Mahalanobis-

Distanz

Ausschluss

korrelierter Variable

Standardisierung

23.06.2010

Konkretisierung der

Problemstellung

Bestimmung der zu

klassifizierenden Objekte

Auswahl der Variablen

Festlegung eines Proximitätsmaßes

Auswahl eines Algorithmus

zur Gruppierung

Bestimmung der

Gruppenzahl

Durchführung des Gruppierungs-

vorganges

Analyse & Interpretation der Ergebnisse

3. Anwendungshinweise

Gemeinsamkeiten

Aufspüren „versteckter“ Größen

Datenreduktion

gleicher Ausgangspunkt/ Datenmatrix

Unterschiede

Clusteranalyse: Reduzierung der Objekte/ Personen

Faktorenanalyse: Reduzierung der Variablen/ Merkmale

4. Abgrenzung zu Faktorenanalyse

Variable1 Variable2 …. Variable J

Objekt 1

Objekt 2

Objekt K

23.06.2010

Unsere Studie:

Fragestellung:

Lassen sich Musikstile bezüglich der Affekte, die sie auslösen, ihrer Bekanntheit und ihrer Beliebtheit in Gruppen einordnen?

Objekte: 10 Musiktitel unterschiedlicher Musikrichtungen

Merkmalsausprägungen: Affekte, Beliebtheit & Bekanntheit

Affekt: PANAS

Beliebtheit

Bekanntheit

23 Versuchspersonen, 15-53 Jahre (M=27.7, SD=11.55)

5. Fallbeispiel & SPSS

fünfstufige Lickert-Skala (gar nicht - äußerst

nominal, ja/nein

Praktische Schritte

1. Single-Linkage-Verfahren

2. Ward-Verfahren

3. Bestimmung Clusteranzahl

1. Dendrogramm

2. Elbow-Kriterium

4. Interpretation

23.06.2010

Single-Linkage

Ausgangspunkt: Unsere Datenmatrix

zuvor: Personen aggregiert

Variablen

Objekte

Single-Linkage

23.06.2010

Single-Linkage

Objekte

Variablen

Single-Linkage

Bezeichnung der

Objekte

Wir beginnen mit

den Statistiken

23.06.2010

Single-Linkage

Zuordnungsübersicht und

Distanz-Matrix anklicken

Weiter…

Single-Linkage Nächster Schritt:

Diagramme

23.06.2010

Single-LinkageDendrogramm

ankreuzen, brauchen wir

zur Bestimmung der

Clusteranzahl

keine Eiszapfen

(Darstellung von

Clusterstufen)

Weiter…

Single-Linkage3. Schritt:

Methode

Jetzt müssen wir die Methoden

der Gruppierung und

Ähnlichkeitsbestimmung

auswählen

23.06.2010

Single-Linkage

1. Welches Skalen-

niveau haben wir?

Auswahl

Proximitätsmaß

Verschaffen wir uns

erstmal ein wenig

Übersicht…

2. Welche Gruppierungs-

methode?

Auswahl

3. untersch. Skalen-

niveau?

Transformieren!

4. ungleiche

Wertebereiche?

Standardisieren!

Single-Linkage

Proximitätsmaße für

binäres Messniveau

M-Koeffizient

23.06.2010

Single-Linkage

Wir brauchen aber

Intervall-Skalierung

(L2-Norm)

Quadrierte

Euklidische Distanz

Auswählen!

Single-Linkage

nächstg. Nachbar =

Single-Linkage

Auswählen!

Complete-Linkage

Average-Linkage

Zuletzt wählen wir

unseren

Weiter…

23.06.2010

Single-Linkage

Überprüfen, dass Fälle,

Statistiken & Diagramme

angeklickt ist

Mit OK die

Berechnungen starten!

Ausgabe-Datei

Single-Linkage

Alle Fälle eingeschlossen?

23.06.2010

Ausgabe-Datei

Single-LinkageDistanzmatrix entsprechend

der quadrierten

Euklidischen Distanz

beschreibt Maß der

Unähnlichkeit zw.

Musiktitel 1 & Musiktitel 2

geringer Wert: ähnlich

Ausgabe-Datei

Single-Linkage

die Zuordnungs-

übersicht macht den

Fusionierungsprozess

deutlich

Koeffizient = quadrierte

Euklidische Distanz1. Schritt: beiden

ähnlichsten Objekte

zusammengeführt

2. Schritt: Musiktitel 7

kommt zu Cluster 1 dazu…

23.06.2010

Dendrogramm

Single-Linkagebei einigen SPSS-Versionen

oft „auseinandergerissene“

Darstellung

quadrierte Euklidische

Distanz

Kettenbildung

Ausreißer

Musiktitel 3

Nochmal kompakt…

1. Analysieren Klassifizieren Hierarchische Cluster

2. Objekte Fallbeschriftung; Variablen Variablen

3. Statistiken: Zuordnungsübersicht & Distanz-Matrix

4. Diagramme: Dendrogramme

5. Methode: Wahl Messniveau/Proximitätsmaß & Cluster-Methode

23.06.2010

Ward-Verfahren

Musiktitel 3 ausschließen (Ausreißer)

Ward-Verfahren

Quadrierte

Euklidische Distanz

Auswählen!

23.06.2010

Ward-Verfahren

Auswählen!

Weiter…

Ward-Verfahren

Überprüfen, dass Fälle,

Statistiken & Diagramme

angeklickt ist

Mit OK die

Berechnungen starten!

23.06.2010

Ausschluss Titel 3, nur

noch 9 Fälle

Ward-Verfahren

Dendrogramm

2- oder 4-Clusterlösung

23.06.2010

Fehlerquadratsumme

1 2 3 4 5 6 7 8

Zahl der Cluster

Elbow-Kriterium

Interpretation

Zuordnung der Objekt zu

Cluster

Weiter und OK…

23.06.2010

Interpretation

2- Cluster-Lösung 4- Cluster-Lösung

Interpretation

Was steckt dahinter?

Cluster 4

Musiktitel 10: Andrea

Bocelli – Nessun Dorma

Klassik

Cluster 3

Musiktitel 8: Airbourne –

Whats eatin you

Musiktitel 5 : Alien Ant Farm

- Stick and Stones

Musikrichtungen? Nicht unbedingt!

23.06.2010

Interpretation

Mittelwertevergleich der

Cluster

Clusterlösungen

speichern

Interpretation

Unsere 4 Cluster

Mittelwerte der Merkmale

für die jeweiligen Cluster

Mittelwertevergleich…

23.06.2010

Interpretation

Noch besser sehen wir das

in einer grafischen

Veranschaulichung!

Interpretation

23.06.2010

Interpretation

Musik kann Emotionen auslösen

unterschiedliche Musikstile – unterschiedliche Affekte?

Lassen sich Musiktitel bezüglich der Affekte, die sie auslösen

und ihrer Beliebtheit & Bekanntheit in Gruppen einteilen?

2 oder 4 Cluster

Cluster 1: anregend, begeisternd

Cluster 3: verärgert, gereizt

Cluster 4: beliebt, bekümmert

Interpretation – Zurück zum Anfang…

23.06.2010

FAZIT – Die Clusteranalyse…

…umfasst eine Vielzahl von Verfahren zur Klassifizierung

…zielt darauf Personen oder Objekt aufgrund ihrer Merkmale zusammenzufassen

…besteht aus drei essentiellen Schritten:

1. Bestimmen von Ähnlichkeiten Proximitätsmaße

2. Zusammenfassen zu Gruppen aufgrund Ähnlichkeit Fusionierungsalgorithmus

3. Bestimmung der Clusterzahl Dendrogramm, Elbow, Fehlerquadrate

…sollte auf ihrer Güte überprüft werden

…kann weitläufig interpretiert werden

…kann Grundlage für weitere zahlreiche Analysen sein

Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2006). Multivariate Analysemethoden. Berlin, Heidelberg: Springer.

Berekoven, L., Eckert, W., & Ellenrieder, P. (2006). Marktforschung: Methodische Grundlagen und praktische Anwendung. Wiesbaden: Gabler.

Bortz, J. (1999). Statistik für Sozialwissenschaftler. Berlin, Heidelberg: Springer.

Bortz, J., & Döring, N. (2006). Forschungsmethoden und Evaluation für Sozialwissenschaftler . Berlin, Heidelberg: Springer.

Janssen, J., & Laatz, W. (2007). Statistische Datenanalyse mit SPSS für Windows. Berlin, Heidelberg: Springer.

Lehnert, U. (2000). Datenanalysesystem SPSS Version 9. München: Oldenbourg

Voß, W. (2003). Taschenbuch der Statistik. München: Hanser.

Literatur

23.06.2010

VIELEN DANK

FÜR EURE

AUFMERK-

SAMKEIT UND

MITARBEIT!

Clusteranalyse - Technische Universität Chemnitz Multivariate Verfahren SS 2010 Seminarleiter: Dr....

Documents