Betrachtung der Realität aus Betrachtung der Realität aus der Sicht der Statistikder Sicht der Statistik
DIE GRUNDLAGEN DER DIE GRUNDLAGEN DER STATISTIKSTATISTIK
Scuola Secondaria di 1°grado; Argomento: Leggiamo - Basi (30.09.13); Pacchetto: S1.A.1
Übersetzung: / Tradotto da:
INHALT
1) Was untersucht die Statistik?
2) Kollektive Phänomene
3) Merkmale und Ausprägungen
4) Erhebungseinheit und Grundgesamtheit
5) Häufigkeiten (absolute, relative, prozentuelle)…
6) Lagemaße (Modus, Median, Mittelwert)
7) Streuungsmaße (Spannweite)
Was untersucht die Statistik?
Die Hauptaufgabe der Statistik besteht darin, das, was in der Masse der Informationen unklar erscheint, verständlich zu machen.
Wenn man Informationen zu einem bestimmten Phänomen sammelt, hat man mit sehr vielen unbearbeiteten Daten (Rohdaten) zu tun.
Deshalb muss als erstes diese Menge an Rohdaten mit besonders aussagekräftigen Indikatoren zusammengefasst werden. Dazu werden numerische (d.h. mit Zahlen) oder grafische (d.h. bildliche) Methoden verwendet, welche die erhobenen Daten beschreiben können, ohne die gesamte Bedeutung zu verändern.
Kollektive Phänomene
Die Statistik beschäftigt sich also mit den Phänomenen, bei denen sehr viele einzelne Ausprägungen (kollektive Phänomene) beobachtet werden müssen, damit man das Phänomen selbst untersuchen kann. Die Statistik fasst diese einzelnen Informationen zusammen.
Anders gesagt: Die Statistik versucht, aus einer riesigen Menge an Informationen das Wichtigste herauszufiltern, den Zahlen Gehör zu verschaffen!
Ist das aber wirklich nötig? Wäre es nicht besser, alle verfügbaren Informationen einzeln und im Detail anzuschauen?
Braucht es die Statistik?
In einer Mittelschule haben die Lehrer eine Umfrage zu den Reisen und Sommerferien der Schüler gemacht.Sie haben jeden Schüler gebeten, eine der sechs folgenden Antworten auszuwählen: kein Urlaub, Meer, Berg, Land, Kunststadt, anderes.
Meer Kulturstadt Meer Meer Meer
Meer Anderes Kulturstadt Berg Kein Urlaub
Kein Urlaub Meer Anderes Anderes Kein Urlaub
Berg Meer Meer Berg Meer
Meer Kein Urlaub Kein Urlaub Meer Berg
Kein Urlaub Kein Urlaub Kein Urlaub Meer Land
Land Berg Kein Urlaub Anderes Land
Kulturstadt Kein Urlaub Anderes Kulturstadt Berg
Kein Urlaub Meer Meer Berg Anderes
Meer Meer Meer Kein Urlaub Kulturstadt
Wie viele sind das?Was war das beliebteste Ziel?Können wir das in wenigen Sekunden sagen?
Wenn wir alles in eine Tabelle schreiben…
Art des Urlaubs InsgesamtMeer 17Kein Urlaub 12Berg 7Anderes 6Kulturstadt 5Land 3Insgesamt 50
Die Daten, die davor nacheinander eingetragen waren, sind jetzt in einer Tabelle zusammengefasst.
Insgesamt waren es 50 Schüler.
Das bevorzugte Ziel war das Meer!
Lasst uns jetzt anfangen!
Bevor wir „lustige“ Sachen mit den Daten machen können, müssen wir die richtigen Bezeichnungen dafür lernen!!
WIR MÜSSEN EIN PAAR BEGRIFFE DERFACHSPRACHE LERNEN
Neue Wörter oder„alte“ Wörter mit neuer Bedeutung
MERKMALE UND AUSPRÄGUNGEN
MERKMAL oder VARIABLE oder PHÄNOMEN:ist eine interessante Eigenschaftwird erhoben / gemessen / beobachtet
AUSPRÄGUNGEN:sind mögliche Werte des Merkmals, sie sindnumerisch oder nicht numerisch und müssen:
erschöpfend sein: sie müssen alle Wesensarten des betrachteten Merkmals enthalten
nicht überschneidend sein: sie sind genau bestimmt oder schließen sich gegenseitig aus.
z.B. das von den Lehrern erhobene Merkmal ist dieART DES URLAUBS und die Ausprägungen sind:Kein Urlaub, Meer, Berg, Land, Kulturstadt und anderes
ERHEBUNGSEINHEIT und GRUNDGESAMTHEITDie ERHEBUNGSEINHEIT ist das Grundelement, an dem die Merkmale beobachtet werden
In der Erhebung über die Variable ART DES URLAUBS sind die 50 Schüler die Erhebungseinheiten
Es kann „natürlich“ z.B. ein Mensch, ein Autooder konventionell sein z.B. die Familie
Die Erhebungseinheit oder das Grundelement der Erhebung
muss immer genau definiert werden.
DIE GRUNDGESAMTHEIT ist die Summe aller berücksichtigten Erhebungseinheiten, die in einem oder mehreren Merkmalen übereinstimmen.Mit n wird die Gesamtanzahl der berücksichtigten Erhebungseinheiten bezeichnet.
Und jetzt geht’s mit derPraxis weiter...
Je nach Art der Ausprägung…
Merkmale
QuantitativWerden über Zahlen
(Werte) ausgedrückt, die sich auf eine Maßeinheit
beziehen. Sie sind messbar.
DiskretSie nehmen eine begrenzte Anzahl von eineindeutigen Werten an, die den ganzen Zahlen entsprechen (z.B.: Geschwisteranzahl)
StetigSie nehmen eine unbegrenzte Anzahl an eineindeutigen Werten an, die den realen Zahlen entsprechen (z.B.:Alter)
QualititativWerden über
Eigenschaften ausgedrückt. Sie sind
nicht messbar.
OrdinalNatürliche Reihenfolge (z.B.: Bildungsgrad)
NominalKeine Reihenfolge zwi-schen den Ausprägungen (z.B.: Geschlecht)
Instrumente der Statistik
Mit der Statistik wird eine Menge an Daten einer Erhebung zusammengefasst und in eine Form gebracht, die leicht zu interpretieren ist. Damit wird die Zusammensetzung der Grundgesamtheit in Bezug auf die beobachteten Merkmale hervorgehoben und es werden Hinweise für die weiteren Bearbeitungen entnommen.
Über welche Instrumente der Statistik werden wir sprechen?HäufigkeitenHäufigkeitstabellenEinfache charakteristische Konstanten (Lagemaße, Streuungsmaße...)
Die Häufigkeiten
Die einfachste Messtechnik ist die Zählung, also die Anzahl, wie oft jede Ausprägung eines Merkmals auftritt.
Jede Erhebungseinheit - muss klassifiziert werden können erschöpfende Klassen - muss zu einer einzigen Klasse gehören getrennte Klassen
Um die Häufigkeiten zu berechnen, benötigt man die einheitliche Verteilung des Merkmals, also die Auflistung der Ausprägungen, die für jede einzelne Erhebungseinheit in der Grundgesamtheit beobachtet wurden
Art des UrlaubsInsge-samt
Meer 17Kein Urlaub 12Berg 7Anderes 6Kulturstadt 5Land 3Insgesamt 50
Meer Kulturstadt Meer Meer Meer
Meer Anderes Kulturstadt Berg Kein Urlaub
Kein Urlaub Meer Anderes Anderes Kein Urlaub
Berg Meer Meer Berg Meer
Meer Kein Urlaub Kein Urlaub Meer Berg
Kein Urlaub Kein Urlaub Kein Urlaub Meer Land
Land Berg Kein Urlaub Anderes Land
Kulturstadt Kein Urlaub Anderes Kulturstadt Berg
Kein Urlaub Meer Meer Berg Anderes
Meer Meer Meer Kein Urlaub Kulturstadt
Ausgehend von den aufgereihten Daten zählt man, wie oft jede Ausprägung vorkommt und erhält so die Häufigkeitstabelle!
Mit nj werden die Häufigkeiten angegeben und mit xj die Ausprägungen mit dem Index j=1,2,…,K wobei K die Anzahl der Ausprägungen ist
Absolute Häufigkeiten
Die absoluten Häufigkeitensind die Anzahl, wie oft jede Ausprägung in der beobachteten Grundgesamtheit vorkommt
Tipo di vacanzaFrequenze assolute
mare 17nessun viaggio 12montagna 7altro 6città d'arte 5campagna 3Totale 50
Die statistische Tabelle ist eine Übersicht mit zwei Spalten:
in der ersten Spalte sind die Ausprägungen (einzeln oder in Klassen zusammengefasst), die das Merkmal annehmen kann, aufgelistet
in der zweiten Spalte sind die Häufigkeiten enthalten
Der Teil oberhalb der Spalten heißt Tabellenkopf.
AusprägungAbsolute Häufigkeit
x1 n1
x2 n2
… …xj nj
… …xk nk
Insgesamt n
Relative Häufigkeiten
Teilt man die absoluten Häufigkeiten durch n, die Gesamtanzahl der Erhebungseinheiten, erhält man die relativen Häufigkeiten.
Art des UrlaubsAbsolute
HäufigkeitRelative
HäufigkeitMeer 17 0,34Kein Urlaub 12 0,24Berg 7 0,14Anderes 6 0,12Kulturstadt 5 0,10Land 3 0,06Insgesamt 50 1
Die ABSOLUTEN HÄUFIGKEITEN von zwei Datenverteilungen, auch derselben Art, sind nicht vergleichbar, da sie sich normalerweise auf eine unterschiedliche Gesamtanzahl an Einheiten beziehen.
nassolutafrequenzarelativafrequenza
Wieso werden relative Häufigkeiten berechnet?
Da die absoluten Häufigkeiten von n abhängen, haben sie unterschiedliche Bedeutung je nach Gesamtanzahl der Einheiten.
Dies ist besonders dann wichtig, wenn Häufigkeitsverteilungen von 2 oder mehr Grundgesamtheiten verglichen werden.
Betrachten wir zwei Gruppen, die nach Geschlecht (M Männer und F Frauen) klassifiziert sind. Über die relativen Häufigkeiten können wir erkennen, in welcher Gruppe der Männeranteil höher ist.
Gruppe 1
Absolute Häufigkeit
Relative Häufigkeit
Gruppe 2
Absolute Häufigkeit
Relative Häufigkeit
M 2 0,333 M 12 0,207F 4 0,667 F 46 0,793Insge-samt 6 1
Insge-samt 58 1
Art des UrlaubsAbsolute
HäufigkeitRelative
HäufigkeitProzentuelle
HäufigkeitMeer 17 0,34 34%Kein Urlaub 12 0,24 24%Berg 7 0,14 14%Anderes 6 0,12 12%Kulturstadt 5 0,1 10%Land 3 0,06 6%Insgesamt 50 1 100%
Prozentuelle Häufigkeiten
Die prozentuelle Häufigkeit einer bestimmten Ausprägung ist das Verhältnis zwischen der absoluten Häufigkeit dieser Ausprägung und der Gesamtanzahl der Einheiten, multipliziert mit 100:
100 nassolutafrequenzaepercentualfrequenza
Mit prozentuellen Häufigkeiten kann man sehr leicht Vergleiche machen!
Berechnung der prozentuellen Häufigkeiten!Die Schüler einer Klasse werden mit der qualitativen Variablen HAARFARBE klassifiziert. Hier ist die Häufigkeitstabelle:
Haarfarbe(Merkmal)
Absolute Häufigkeit
Schwarz 10
Braun 6
Rot 1
Blond 5
INSGESAMT 22Haarfarbe Absolute
HäufigkeitProzentuelle
Häufigkeit
Schwarz 10 45,46%
Braun 6 27,27%
Rot 1 4,55%
Blond 5 22,72%
INSGESAMT 22 100%
45,4510022
10
54,410022
1
27,2710022
6
72,2210022
5
Berechnung der prozentuellen Häufigkeiten
Ein Detail zu den AUSPRÄGUNGENBei den diskreten Variablen lassen sich die Ausprägungen ziemlich einfach bestimmen,aber bei den STETIGEN Variablen muss man eine DISKRETISIERUNG vornehmen, also KLASSEN der Werte ermitteln, die das Merkmal annimmt, das uns interessiert.
Darstellung nach Gewichtsklassen
GEWICHTSKLASSE ANZAHL SCHÜLER(Häufigkeit)
50 – 60 kg 4
60 – 70 kg 7
70 – 80 kg 3
Insgesamt 14
GEWICHT (kg)
ANZAHL SCHÜLER
(Häufigkeit)
52 1
54 1
55 2
61 1
63 1
68 2
69 3
71 1
73 1
75 1
INSGESAMT 14
Einige Informationen zu den KLASSEN
Bei der KLASSIFIKATION müssen bestimmte Regeln eingehalten werden
die Anzahl der Klassen muss ausgewogen seinweder zu viele, noch zu wenige
die Klassen müssen normalerweise gleich groß sein
offene Klassen sind möglichst zu vermeiden
Die Informationen werden in einer Verteilung nach Klassen ungenauer, aber die Darstellung der Verteilung wird einfacher und schneller.
LAGEMASSE
Um eine Verteilung mit einem einzigen Wert zusammenzufassen, kann ein Lagemaß verwendet werden. Diese Maße informieren über die Größenordnung, die das Merkmal in der Grundgesamtheit aufweist.
Die bekanntesten sind der arithmetische Mittelwert, der Modus und der Median, aber es gibt noch viele andere. Jedes hat seine Eigenheiten….
z.B. Welches ist die durchschnittliche Farbe eurer Haare?Achtung: Nicht alle Merkmale sind gleich und wir müssen
deshalb unterschiedlich handeln… (erinnert ihr euch an die qualitativen und quantitativen Merkmale??)
MODUSDer MODUS einer Datenverteilung bezeichnet dieGRÖSSTE HÄUFIGKEIT.
Es handelt sich im Grunde genommen um den häufigsten Begriff.
In dieser Tabelle sind die 19 Schüler nach dem Merkmal NOTE klassifiziert. Der Modus ist die häufigste Ausprägung: das ist die Note 6!
NOTE Absolute Häufigkeit
5 4
6 8
7 4
8 2
9 1
Insge-samt
19
Er kann für jede Art von Merkmale ermittelt werden, auch für qualitative nominale.
Der MEDIAN ist der Wert, welcher an der MITTLEREN STELLE einer Verteilung von Daten steht, die aufsteigend geordnet sind.
In dieser Tabelle sind die 19 Schüler nach dem Merkmal NOTE klassifiziert. Um den Median festzustellen, werden alle Daten aufsteigend angeordnet. Dann wird der ZENTRALE WERT
festgestellt: Das ist der Wert in der Mitte, bei dem auf der rechten und linken Seite gleich viele Werte stehen.
MEDIAN
NOTE Absolute Häufigkeit
5 4
6 8
7 4
8 2
9 1
Insge-samt
19
5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 8 8 9
Wenn es sich um eine gerade Anzahl von Daten handelt, gibt es zwei Werte, die genau in der Mitte stehen. Der Median ist der arithmetische Mittelwert dieser zwei Werte.
Der MITTELWERT ist ein analytischer Mittelwert und kann also nur für QUANTITATIVE Merkmale berechnet werden. Man berechnet ihn, indem man alle beobachteten Werte addiert und durch die Gesamtanzahl der Erhebungseinheiten dividiert.
ARITHMETISCHER MITTELWERT
Im vorigen Beispiel
5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 8 8 9
n
xxxM n ).....( 21
4,619
121
19
98...55
M
Es scheint unlogisch, dass eine Dezimalzahl die Zusammen-fassung von diskreten Daten ist. Das lässt sich aber damit erklären, dass der Mittelwert ein stellvertretender Wert für alle beobachteten Werte ist und sich nicht auf eine einzelne Maßeinheit bezieht!
Wenn die Daten in einer Tabelle dargestellt werden, ändert sich die Formel. Jeder beobachtete Wert wird mit der jeweiligen absoluten Häufigkeit gewichtet und alles durch n dividiert.
ARITHMETISCHER MITTELWERT
4,619
121).....( 2211
n
nxnxnxM kk
NOTE
xj
Absolute Häufigkeit
nj
xj x nj
5 4 206 8 487 4 288 2 169 1 9
Insge-samt
19 121
STREUUNG
Der MITTELWERT REICHT NICHT, um ein Bild von der Verteilung eines Merkmals darzustellen!
Man braucht Indikatoren, die die VERSCHIEDENHEIT der beobachteten Einheiten, also ihre HETEROGENITÄT, beschreiben.
z.B. zwei Verteilungen mit dem gleichen arithmetischen Mittelwert,die sich aber sehr voneinander unterscheiden
Diese Indikatoren sind die STREUUNGSMASSE.
Die STREUUNG einer Verteilung ist die Tendenz der Einheiten, verschiedene Ausprägungen des Merkmals anzunehmen.
SPANNWEITE
Um die STREUUNG eines statistischen Phänomens zu verstehen, betrachten wir die folgende Tabelle. Dort wird angegeben, wie viele Fernseher ein Händler in den ersten drei Monaten der letzten drei Jahre verkauft hat.
Im ersten Quartal wurden immer durchschnittlich 30 Fernseher verkauft, aber…um die Streuung einzuschätzen, können wir die SPANNWEITE zwischen dem beobachteten Höchstwert und Mindestwert berücksichtigen.
Monat 2011 2012 2013
Jänner 30 40 60
Februar 30 20 10
März 30 30 20
Insgesamt 90 90 90
Spann-weite 0 20 50
2011Spannweite=30-30=0 also KEINE STREUUNG
2013Spannweite=60-10=50
Die Verkäufe haben 2013 eine größere Streuung aufgewiesen!
……und jetzt…und jetzt…Gute Arbeit!Gute Arbeit!
Rete per la promozione della cultura statistica
Übersetzung: / Tradotto da: