Wortverbindungen im Spiegel der Zeitaus X Gründenallen X zum Trotz
Datengrundlage
• Der Spiegel (1947-2016)§ ca. 284 Millionen Token
• Die Zeit (1953-2016, mit ausgedehnten „Ausfällen“ 1994)§ ca. 368 Millionen Token
• Extraktion aller Vorkommen von§ [Aa]us X Gründen§ [Aa]lle[mnr] X zum Trotz§ X: maximal 4 Wörter – im Folgenden „Filler“§ Alle alternativen Schreibweisen
zusammengefasst.
Fragestellungen
• Welches sind die häufigsten Filler?§ Wie verteilen sich die Filler insgesamt?
• Wird die Wortverbindung über die Zeit seltener oder häufiger?§ Welche Probleme entstehen, wenn über die Zeit die Größe der
Korpora variiert?§ Wie lassen sich diese Probleme angehen?
• Verändert sich die Verteilung der Filler über die Zeit?
Wortverbindungen
Spiegel Zeit
aus X Gründen (Token) 12 685 19 361
aus X Gründen (Types) 2 140 3 081
allen X zum Trotz (Token) 1 536 2 535
allen X zum Trotz (Types) 1 143 1 724
aus X Gründen
0.00%
2.50%
5.00%
7.50%
politischen
anderen
welchen
zweiguten
gesundheitlichen
wirtschaftlic
hen
finanziellen
taktischen
technischen
verschiedenen
diesen
humanitären
rechtlichen
religiösen
ideologischen
mehreren
persönlich
en
verständlich
en
irgendwelchen
ökonomischen
unerfindlich
en
vielerle
ivie
len
steuerlic
hen
moralischen
innenpolitischen
unterschiedlich
en
naheliegenden drei
sozialen
beruflichen
den gleichen
ganz anderen
historisc
hen
formalen
ähnlichen
optischen
strategisc
hen
psychologisc
hen
ethischen
wahltaktischen
all diesen
mancherlei
ökologischen
medizinisc
hen
verfassu
ngsrechtlic
hen
den versc
hiedensten
praktischen
privaten
Filler
% V
orko
mm
en in
alle
n Fi
llern
die
ser Q
uelle
QuelleSpiegel
Zeit
Sortiert nach GesamtvorkommenTOP50−Filler
Evtl. interessant: Gruppierung nach Fillertypen• adjektivisch• pronominal• quantifizierend (beispielhaft markiert)• …
allen X zum Trotz
0.00%
1.00%
2.00%
3.00%
4.00%
5.00%
Unkenrufen
Widrigkeiten
Widerständen
Dementis
Warnungen
Beteuerungen
gegenteiligen Beteuerungen
Anschein
Gerüchten
Schwierigkeiten
Kritik
Anfeindungen
Bedenken
Bemühungen
Zweifeln
Befürchtungen
Rückschlägen
Vorurteilen
Einwänden
Prognosen
Gewalten
guten Vorsätze
n
Protesten
Anstrengungen
Lippenbekenntnissen
Anfechtungen
Erfahrungen
Schwüren
Ankündigungen
Drohungen
Versprechungen
Erwartungen
Hindernissen
Skeptikern
Verboten
Beschwörungen
düsteren Prognosen
Kassandrarufen
Krisen
Risiken
Spekulationen
Unterschieden
Voraussagen
Augenschein
bösen Erfahrungen
Enttäuschungen
Erfolgen
Gefahren
Mahnungen
Mißerfolgen
Filler
% V
orko
mm
en in
alle
n Fi
llern
die
ser Q
uelle
QuelleSpiegel
Zeit
Sortiert nach GesamtvorkommenTOP50−Filler
Weitere Gruppierung schon aufgrund geringer Trefferzahl nicht sinnvoll.Ausschließlich Filler der Form (Adj) NP(Plural)
Entwicklung über die Zeit
30
40
50
60
70
80
1960 1980 2000
Anza
hl 'a
us X
Grü
nden
' in 1
Milli
on T
oken
QuelleSpiegel
Zeit
Variante 1: Normierte Vorkommen aus Gesamtkorpus
aus X Gründen
Entwicklung über die Zeit
2.5
5.0
7.5
1960 1980 2000
Anza
hl 'a
llen
X zu
m T
rotz
' in 1
Milli
on T
oken
Normierte Vorkommen aus Gesamtkorpus
allen X zum Trotz
Korpusgrößen
30
40
50
60
70
80
1960 1980 2000
Anza
hl 'a
us X
Grü
nden
' in 1
Milli
on T
oken
QuelleSpiegel
Zeit
Variante 1: Normierte Vorkommen aus Gesamtkorpus
2,500,000
5,000,000
7,500,000
10,000,000
1960 1980 2000
Korpusgröße
QuelleSpiegel
Zeit
• Ist die verminderte normierte Frequenz der Wortverbindung noch immer beeinflusst von der Korpusgröße?§ Wird die WV wirklich weniger verwendet, oder liegt es einfach
daran, dass die Normierungsgröße größer wird?
Sampling
• Zwei „Korngrößen“ gesampelter Korpora:§ 1-Jahres-Samples§ 4-Jahres-Samples
• In Spiegel und Zeit wird jeweils die kleinste Zeiteinheit(1 Jahr oder 4 Jahre) als Sampling-Ziel gesetzt.
• Dann werden so lange komplette Texte aus den anderen Zeiteinheiten gezogen, bis die Zielgröße erreicht ist.
0
500,000
1,000,000
1960 1980 2000
Korp
usgr
öße
1−Jahres−Samples; Gesamtgröße: 89,130,484Der Spiegel
0
1,000,000
2,000,000
1960 1980 2000
Korp
usgr
öße
1−Jahres−Samples; Gesamtgröße: 171,068,126Die Zeit
0
2,000,000
4,000,000
6,000,000
1947−1
950
1951−1
954
1955−1
958
1959−1
962
1963−1
966
1967−1
970
1971−1
974
1975−1
978
1979−1
982
1983−1
986
1987−1
990
1991−1
994
1995−1
998
1999−2
002
2003−2
006
2007−2
010
2011−2
014
2015−2
016
Korp
usgr
öße
4−Jahres−Samples; Gesamtgröße: 121,454,613Der Spiegel
0
3,000,000
6,000,000
9,000,000
12,000,000
1953−1
956
1957−1
960
1961−1
964
1965−1
968
1969−1
972
1973−1
976
1977−1
980
1981−1
984
1985−1
988
1989−1
992
1993−1
996
1997−2
000
2001−2
004
2005−2
008
2009−2
012
2013−2
016
Korp
usgr
öße
4−Jahres−Samples; Gesamtgröße: 189,455,895Die Zeit
300
400
500
1947−1
950
1951−1
954
1955−1
958
1959−1
962
1963−1
966
1967−1
970
1971−1
974
1975−1
978
1979−1
982
1983−1
986
1987−1
990
1991−1
994
1995−1
998
1999−2
002
2003−2
006
2007−2
010
2011−2
014
2015−2
016
Jahresgruppe
Häu
figke
it
Der Spiegel, Variante 3: 4−Jahressamples
400
500
600
700
800
900
1953−1
956
1957−1
960
1961−1
964
1965−1
968
1969−1
972
1973−1
976
1977−1
980
1981−1
984
1985−1
988
1989−1
992
1993−1
996
1997−2
000
2001−2
004
2005−2
008
2009−2
012
2013−2
016
Jahresgruppe
Häu
figke
itDie Zeit, Variante 3: 4−Jahressamples
50
75
100
1960 1980 2000Jahr
Häu
figke
it
Der Spiegel, Variante 2: 1−Jahressamples
80
120
160
200
1960 1980 2000Jahr
Häu
figke
it
Die Zeit, Variante 2: 1−Jahressamples
• Verringerter Gebrauch von „aus X Gründen“ in beiden Sampling-Varianten noch immer nachweisbar
• Offenbar solider Effekt
Filler über die Zeit
• „Allen X zum Trotz“ hat zu wenige Treffer, um verlässliche Aussagen über einen Zeitverlauf einzelner Filler zu treffen.
• Für „aus X Gründen“ ist das möglich...§ Normierungsgröße: Anzahl Vorkommen der Wortverbindung
• Die Korpusgröße ist somit nicht mehr ausschlaggebend.• Es wird ermittelt, wie sich die Gewichte der Filler innerhalb der Wortverbindung
verschieben.
§ Zusammenschau von normierten und rohen Fillerzahlen
gesundheitlichen wirtschaftlichen finanziellen taktischen technischen
politischen anderen welchen zwei guten
1960 1980 2000 1960 1980 2000 1960 1980 2000 1960 1980 2000 1960 1980 2000
0.00%
2.00%
4.00%
6.00%
0.00%
2.00%
4.00%
6.00%
0.0%
5.0%
10.0%
15.0%
0.00%
2.00%
4.00%
6.00%
0.00%
2.00%
4.00%
6.00%
8.00%
0.00%
1.00%
2.00%
3.00%
4.00%
0.00%
2.00%
4.00%
6.00%
8.00%
0.00%
2.00%
4.00%
0.0%
5.0%
10.0%
15.0%
20.0%
25.0%
0.00%
2.00%
4.00%
6.00%
8.00%
% V
orko
mm
en in
alle
n Fi
llern
die
ser Q
uelle
im J
ahr
QuelleSpiegel
Zeit
Sortiert nach GesamtvorkommenTOP20−Filler im Zeitverlauf: Normierte Frequenzen
gesundheitlichen wirtschaftlichen finanziellen taktischen technischen
politischen anderen welchen zwei guten
1960 1980 2000 1960 1980 2000 1960 1980 2000 1960 1980 2000 1960 1980 2000
0
5
10
15
0
4
8
12
0
5
10
15
20
0
5
10
15
0
10
20
0
4
8
12
0
5
10
15
20
0
5
10
15
0
10
20
30
0
5
10
15Vork
omm
en QuelleSpiegel
Zeit
Sortiert nach GesamtvorkommenTOP20−Filler im Zeitverlauf: Rohe Frequenzen
• Verallgemeinerbare Aussagen sind hier schwer abzuleiten.
• Schon kleine Schwankungen können zu relativ starken Ausreißern führen.§ Selbst für „aus politischen
Gründen“ kommen wir maximal auf 35 Instanzen pro Jahr.
• Worauf sind die (potentiellen) Entwicklungen zurückzuführen?§ Themenverschiebungen?
§ Verschiebungen in der Ausrichtung der Quelle (bspw. neue Ressorts)?
Produktivität/Vielfalt/Diversität
• Diachron: Diversität über die Zeit• Kontrastiv: Diversität verschiedener Wortverbindungen
Diversität über die Zeit
• Die relative Entropie zeigt uns, wie sicher wir uns sein können, welchen Filler wir bekommen, wenn wir zufällig einen ziehen.§ Je höher der Wert, desto höher die Unsicherheit.§ gegen 0: Völlig klar, welcher Filler gezogen wird§ gegen 1: Rein zufällig, welcher Filler gezogen wird
(à alle gleich häufig)
aus X Gründen
Diversität über die Zeitaus X Gründen
1-Jahres-Samples
1-Jahres-Samples
• Tendentiell steigt die Entropie.• Die Anzahl unterschiedlicher Typen sinkt.
• Das legt den Verdacht nahe, dass sich weniger Typen gleichmäßiger verteilen.
Diversität über die Zeitaus X Gründen
• Visueller Eindruck: Die häufigsten Typen heben sich in späteren Jahrgängen weniger von den restlichen Typen ab.§ Verteilung wird weniger ‚steil‘.
§ Weniger Typen verteilen sich ‚gleichmäßiger‘.
• Mechanismus, der Entropie steigenlässt.
Vergleich von Wortverbindungen
●
●
●
[Aa]lle[mnr] X zum Trotz
[Aa]us X Gründen (Spiegel)
[Aa]us X Gründen (Zeit)
0.75
0.80
0.85
0.90
5000 10000 15000 20000Anzahl UWVs (Tokens)
Rel
ative
Ent
ropi
e
●
●
●
[Aa]lle[mnr] X zum Trotz
[Aa]us X Gründen (Spiegel)
[Aa]us X Gründen (Zeit)
0.75
0.80
0.85
0.90
2100 2300 2500 2700 2900 3100Anzahl UWVs (Types)
Rel
ative
Ent
ropi
e
●
●
●
[Aa]lle[mnr] X zum Trotz
[Aa]us X Gründen (Spiegel)
[Aa]us X Gründen (Zeit)
0.75
0.80
0.85
0.90
0.1 0.2 0.3 0.4 0.5 0.6Potential Productivity
Rel
ative
Ent
ropi
e
Vergleich von Wortverbindungen
Zusammenfassung
• Nicht alle Wortverbindungen eignen sich gleichermaßen für Analysen, die die zeitliche Dynamik in Betracht ziehen.§ Besonders relevant: Anzahl der Belege
• Korpusgröße kann auch auf die Normierung „durchschlagen“.§ Sampling? Bei Filler-Analysen: Normierung an Anzahl der Konstruktion?
• Diversität kann auf viele unterschiedliche Arten gemessen werden, die Maße korrelieren ganz erheblich!