Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario...

Post on 06-Apr-2015

105 views 1 download

transcript

Multivariate Verfahren der Statistik bei der quantitativen

Textanalyse

Ernst Stadlober und Mario DjuzelicInstitut für Statistik

Technische Universität Graz

21. Juni 2002

2

Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen

– TLS: Textlänge gegeben durch Anzahl der

Silben

– m1: mittlere Wortlänge aus

Anzahl der Silben (Silbenanzahl pro

Wort);

– m2: empirische Varianz

der Wortlänge

– log(TLS): logarithmierte Textlänge

– I: das erste Ord´sche Kriterium

I = m2 / m1

– S: das zweite Ord´sche Kriterium

S= m3 / m2

3

Je zwei slowenische Texte der drei Texttypenmit sechs Kenngrößen (Variablen)

Anzahl der Texte, Mittelwertvektoren

Texttyp TLS m1 m2 log(TLS) I S1 liter. Prosa 4943 1.89 1.02 8.51 0.54 0.952 liter. Prosa 2791 1.93 1.06 7.93 0.55 0.86

0.900.52,8.05,0.96,1.84,4000,,52 11 xn

Texttyp TLS m1 m2 log(TLS) I S1 journ. Prosa 1537 2.21 1.75 7.34 0.79 1.092 journ. Prosa 1200 2.31 1.62 7.09 0.70 0.74

0.850.71,6.78,1.59,2.25,1084,,50 22 xn

Texttyp TLS m1 m2 log(TLS) I S1 Poesie 312 1.81 0.72 5.74 0.40 0.502 Poesie 402 1.75 0.91 6.00 0.52 1.27

0.690.39,5.41,0.68,1.74,270,,51 33 xn

4

Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1

0.007376 0.0011930.002700 0.000984 0.005252 27.43391 S

0.001193 0.001291 0.003362 0.0019610.003593 18.00747 I

0.002700 0.003362 0.009193 0.005908 0.016770 75.17015 2m

0.000984 0.0019610.005908 0.0044700.019240 80.34962 1m

0.005252 0.0035930.016770 0.0192400.5040001961.689 log(TLS)

27.43391 18.0074775.17016 80.349621961.6898664007.55TLS

SI2m1mlog(TLS)TLS

1S

1 0.390.33 0.17 0.09 0.11 S

0.39 1 0.98 0.820.14 0.17 I

0.33 0.98 1 0.92 0.25 0.27 2

m

0.17 0.820.92 10.41 0.41 1

m

0.09 0.140.25 0.4110.94 log(TLS)

0.11 0.170.27 0.410.941TLS

SI2

m1

mlog(TLS)TLS

1R

5

Gepoolte Kovarianzmatrix aus Gruppenkovarianzen S i und Sj

jjiiji

ij SnSnnn

S

112

1

Berechnung der multivariaten statistischen Distanzzwischen je zwei sechs-dimensionalen Mittelwertvektoren

5.4022

4.7661

5.5167

)()(,

)()(,

)()(,

321

233232

311

133131

211

122121

xxSxxxxD

xxSxxxxD

xxSxxxxD

t

t

t

6

Literarische Prosa | Journalistische ProsaUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen

V a r i a b l e T e x t t y p e n )2()1(kj xx )2()1(

kj ss ),( )2()1(kj xxD

T L S l i t e r . P r o s aj o u r n . P r o s a

3 9 9 9 . 9 8 11 0 8 4 . 1 6 0

2 9 4 3 . 4 7 07 8 4 . 4 6 9 1

1 . 3 4 2 0 8 8

l o g ( T L S ) l i t e r . P r o s aj o u r n . P r o s a

8 . 0 4 8 4 5 66 . 7 7 9 7 0 8

0 . 7 0 9 9 2 90 . 6 4 4 8 5 8

1 . 8 6 9 0 3 8

m 1 l i t e r . P r o s aj o u r n . P r o s a

1 . 8 3 5 2 9 62 . 2 4 5 3 9 4

0 . 0 6 6 8 5 50 . 1 2 9 8 8 1

3 . 9 9 3 5 3 4

m 2 l i t e r . P r o s aj o u r n . P r o s a

0 . 9 6 0 9 8 11 . 5 9 0 8 2 8

0 . 9 5 8 8 0 00 . 2 0 4 5 8 3

0 . 9 0 0 3 7 0

I l i t e r . P r o s aj o u r n . P r o s a

0 . 5 2 2 5 6 20 . 7 0 6 6 2 2

0 . 0 3 5 9 2 50 . 0 6 3 0 3 2

3 . 6 0 6 2 5 1

S l i t e r . P r o s aj o u r n . P r o s a

0 . 9 0 1 8 1 60 . 8 4 7 3 5 8

0 . 0 8 5 8 8 30 . 2 2 0 7 5 0

0 . 3 2 7 5 6 3

7

Literarische Prosa | PoesieUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen

V a r i a b l e T e x t t y p e n )3()1(kj xx )3()1(

kj ss ),( )3()1(kj xxD

T L S l i t e r . P r o s aP o e s i e

3 9 9 9 . 9 8 12 6 9 . 8 6 2 7

2 9 4 3 . 4 7 01 9 1 . 7 4 6 4

1 . 7 7 9 6 6 0

l o g ( T L S ) l i t e r . P r o s aP o e s i e

8 . 0 4 8 4 5 65 . 4 0 5 7 3 9

0 . 7 0 9 9 2 90 . 6 1 9 9 4 7

3 . 9 4 3 0 0 7

m 1 l i t e r . P r o s aP o e s i e

1 . 8 3 5 2 9 61 . 7 3 6 7 5 5

0 . 0 6 6 8 5 50 . 1 1 5 0 2 1

1 . 0 4 4 8 6 1

m 2 l i t e r . P r o s aP o e s i e

0 . 9 6 0 9 8 10 . 6 8 2 4 1 0

0 . 9 5 8 8 0 00 . 1 7 3 3 5 3

0 . 4 0 0 4 7 3

I l i t e r . P r o s aP o e s i e

0 . 5 2 2 5 6 20 . 3 9 0 4 7 5

0 . 0 3 5 9 2 50 . 0 7 9 0 6 2

2 . 1 4 7 3 7 0

S l i t e r . P r o s aP o e s i e

0 . 9 0 1 8 1 60 . 6 9 1 9 9 0

0 . 0 8 5 8 8 30 . 2 4 8 7 5 3

1 . 1 2 6 3 9 3

8

Journalistische Prosa | PoesieUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen

V a r i a b l e T e x t t y p e n )3()2(kj xx )3()2(

kj ss ),( )3()2(kj xxD

T L S j o u r n . P r o s aP o e s i e

1 0 8 4 . 1 6 02 6 9 . 8 6 2 7

7 8 4 . 4 6 9 11 9 1 . 7 4 6 4

1 . 4 3 2 4 4 1

l o g ( T L S ) j o u r n . P r o s aP o e s i e

6 . 7 7 9 7 0 85 . 4 0 5 7 3 9

0 . 6 4 4 8 5 80 . 6 1 9 9 4 7

2 . 1 7 2 6 2 9

m 1 j o u r n . P r o s aP o e s i e

2 . 2 4 5 3 9 41 . 7 3 6 7 5 5

0 . 1 2 9 8 8 10 . 1 1 5 0 2 1

4 . 1 4 8 7 2 5

m 2 j o u r n . P r o s aP o e s i e

1 . 5 9 0 8 2 80 . 6 8 2 4 1 0

0 . 2 0 4 5 8 30 . 1 7 3 3 5 3

4 . 7 9 4 9 0 6

I j o u r n . P r o s aP o e s i e

0 . 7 0 6 6 2 00 . 3 9 0 4 7 5

0 . 0 6 3 0 3 20 . 0 7 9 0 6 2

4 . 4 1 6 7 8 6

S j o u r n . P r o s aP o e s i e

0 . 8 4 7 3 5 80 . 6 9 1 9 9 0

0 . 2 2 0 7 5 00 . 2 4 8 7 5 3

0 . 6 6 0 2 7 0

9

Auswahl guter Kombinationen von Variablenaus dem Pool von p = 6 Variablen

1.7 1.9 2.1 2.3 2.5

m1

0.4

0.5

0.6

0.7

0.8

I

literarische Prosajournalistische Prosa

3 4 5 6 7 8 9 10

log(TLS)

0.2

0.3

0.4

0.5

0.6

0.7

I

Poesieliterarische Prosa

Scatterplot des Variablenpaares (log(TLS),I)

Scatterplot des Variablenpaares (m1,I)

10

0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00

m2

0.2

0.4

0.6

0.8

I

Poesiejournalistische Prosa

Scatterplot des Variablenpaares (m2,I)

11

SImmTLSTLS ijijijijijijij aaaaaaY 654321 21)log(

Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion

Linearkombination der p=6 Variablen

ijY -W erte für alle Beobachtungen

M ittelwerte der G ruppen: )()( , jij

iij YY

M ittelpunkt: 2)()( jij

iijij YYm

Standardisierte Größe:

ijij

ij

ij mYD

Z 1

12

-4,5 -3,5 -2,5 -1,5 -0,4 0,6 1,6 2,6 3,6 4,6 5,6Diskriminante

0

4

8

12

abso

lute

Häu

fig

kei

ten

literarische Prosajournalistische Prosa

-4,8 -4,0 -3,2 -2,4 -1,5 -0,7 0,1 1,0 1,8 2,6 3,5

Diskriminante

0

2

4

6

8

10

12

abso

lute

Häu

fig

kei

ten

literarische ProsaPoesie

Histogramm der Diskriminante Z12 Multivariate statistische Distanz D12 = 5.5167

Histogramm der Diskriminante Z13

Multivariate statistische DistanzD13 = 4.7661

13

-4,9 -3,9 -3,0 -2,0 -1,0 -0,1 0,9 1,8 2,8 3,7 4,7Diskriminante

0.0

2.5

5.0

7.5

10.0

12.5

15.0

abso

lute

Häu

figk

eite

n

Poesie journalistische Prosa

Histogramm der Diskriminante Z23

Multivariate statistische DistanzD23 = 5.4022

14

Elimination redundanter Variablen in der Diskriminante Y12 mit Hilfe der t-Statistik

Trennung der

literarischen Prosatexte von den journalistischen Prosatexten

Analyse auf Grundlage aller sechs Variablen

Variable Koeffizienten

)(12kbStandardfehler

)( )(12kbsft-Statistik

)(12kt -WerteReduzierte Distanz

)(12ˆ

kD

TLS 0.0002 0.0005 0.3897 5.5130log(TLS) 4.0731 1.5774 2.5822 5.3086

m1 -117.3995 22.2230 -5.2828 4.7574m2 129.0193 32.5310 3.9660 5.0550I -314.3848 68.9248 -4.5613 4.9256S 0.6883 4.7043 0.1463 5.5163

15

Analyse ohne die Variable S

Variable Koeffizienten

)(12kbStandardfehler

)( )(12kbsft-Statistik

)(12kt -WerteReduzierte Distanz

)(12ˆ

kD

TLS 0.00016 0.00051 0.31350 5.51311log(TLS) 4.10485 1.55328 2.64270 5.30094

m1 -118.0241 21.65793 -5.44946 4.72372m2 128.8789 32.35038 3.98384 5.05529I -312.4976 67.43930 -4.63376 4.91432

Analyse ohne die Variablen S und TLS

Variable Koeffizienten

)(12kbStandardfehler

)( )(12kbsft-Statistik

)(12kt -WerteReduzierte Distanz

)(12ˆ

kD

log(TLS) 4.52910 0.77546 5.84053 4.63313m1 -116.36175 20.96482 -5.57593 4.69730m2 126.89840 31.64950 4.00949 5.05128I -308.88416 66.27222 -4.66084 4.91072

16

4,004,204,40

4,604,805,005,20

5,405,60

Distanz ohne log(TLS) Distanz ohne m1

Distanz ohne m2 Distanz ohne I

2,202,502,803,103,403,704,004,304,604,905,205,50

Distanz ohne TLS Distanz ohne log(TLS) Distanz ohne m2

4,40

4,60

4,80

5,00

5,20

5,40

5,60

Distanz ohne log(TLS) Distanz ohne m1 Distanz ohne I

Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable

Literarische Prosa und journalistische Prosa

Journalistische Prosa und PoesieLiterarische Prosa und Poesie

17

Literarische Prosa und journalistische Prosa

Reduzierte lineare Diskriminanzfunktion mit 4 Variablen

ImmTLSredY *88416.3082*8984.1261*36175.116)log(*52910.412

D12(red) = 5.5131 vs. D12 = 5.5167

Literarische Prosa und Poesie

Reduzierte lineare Diskriminanzfunktion mit 3 Variablen

2*6011.13)log(*0437.9*0014.013 mTLSTLSredY

D13(red) = 4.7311 vs. D13 = 4.7661

Journalistische Prosa und Poesie

Reduzierte lineare Diskriminanzfunktion mit 3 Variablen

ImTLSredY *6065.391*9766.22)log(*0937.323

D23(red) = 5.3366 vs. D23 = 5.4022

18

-236 -231 -226 -221 -216 -211 -206 -201 -196

Y12(m1 ,m2 ,I)

5

6

7

8

9

log(

TLS)

literarische Prosajournalistische Prosa

-30 -20 -10 0 10

Y12(log(TLS),m2 ,I)

1.7

1.9

2.1

2.3

2.5

m1

literarische Prosajournalistische Prosa

Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I)

Scatterplot der Veränderlichen m1 und Y12(log(TLS),m2,I)

19

3.5 6.0 8.5 11.0 13.5 16.0 18.5 21.0 23.5

Y13(TLS,m2)

3

5

7

9

log(

TLS)

Poesieliterarische Prosa

Scatterplot der Veränderlichen log(TLS) und Y13(TLS, m2)

20

40 50 60 70 80 90

Y23(m1 ,I)

4

5

6

7

8

log(

TLS)

Poesiejournalistische Prosa

30 40 50 60 70

Y23(log(TLS) ,I)

1.4

1.6

1.8

2.0

2.2

2.4

m1

Poesiejournalistische Prosa

Scatterplot der Veränderlichen log(TLS) und Y23(m1,I)

Scatterplot der Veränderlichen m1 und Y23(log(TLS),I)

21

Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I))mit Gruppenmittelwerten und Konzentrationsellipsen

10 12 14 16 18 20 22

-6-4

-20

2

5.99

10 12 14 16 18 20 22

-6-4

-20

2

5.99

10 12 14 16 18 20 22

-6-4

-20

2

5.99

10 12 14 16 18 20 22

-6-4

-20

2

2

2 222 22

2

22

22

2

2222

2

2 22

2 22

22

2

2

2

2

22 2 2

2222 2

2

2

2

222

2

2

2

22

2

2

1

1

1

1

1

1

1

1 1

1

1

1

1

11

1

1

1

1

11

1

11

11

1

1

1

1

11 11

11

1

1

1

111

1

1

1

1

1

1

1

11 3

3

3

3

33

3

3

3

3

3

3

3

3

3

33

3

3

3

3

3

33

3

3

3

33 33

3

33 3

3

33

3

3

33

3

3

3

3

3

3

33

10 12 14 16 18 20 22Z1

-6-4

-20

2

Z2

10 12 14 16 18 20 22

-6-4

-20

2

10 12 14 16 18 20 22

-6-4

-20

2

10 12 14 16 18 20 22

-6-4

-20

2

1...Poesie2...literarische Prosa3...journalistische Prosa

22

Offene Fragen• Definition der Texttypologie

- Einteilung von Texten in Textkategorien?- welche Kriterien sind anzulegen?- statistische Eigenschaften (Population)?

• Definition eines VariablenpoolsBasis sind Textlänge und Wortlänge- welche abgeleiteten Merkmale soll man betrachten?- welche sind geeignet für Charakterisierung von Textgruppen?

• Diskriminanzfunktionen- welche Merkmale bestimmen gute Diskriminanzfunktionen?- lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale

getrennt werden wie im Slowenischen?)