Was ist eine Chi-Quadrat-Statistik?
Ein Chi-Quadrat ( χ 2) Die Statistik ist ein Test, der misst, wie die Erwartungen mit den tatsächlich beobachteten Daten (oder den Modellergebnissen) verglichen werden. Die zur Berechnung einer Chi-Quadrat-Statistik verwendeten Daten müssen zufällig, roh, sich gegenseitig ausschließend, aus unabhängigen Variablen und aus einer ausreichend großen Stichprobe stammen. Beispielsweise erfüllen die Ergebnisse des 100-maligen Werfens einer Münze diese Kriterien.
Chi-Quadrat-Tests werden häufig beim Testen von Hypothesen verwendet.
Die Formel für Chi-Quadrat ist
χc2 = ∑ (Oi - Ei) 2Eiwhere: c = FreiheitsgradeO = beobachteter Wert (e) E = erwarteter Wert (e) begin {align} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {wobei:} \ & c = \ text {Freiheitsgrade} \ & O = \ text {beobachtete Werte} \ & E = \ text {erwartete Werte } \ \ end {align} χc2 = ∑Ei (Oi −Ei) 2 wobei: c = FreiheitsgradeO = beobachteter Wert (e) E = erwarteter Wert (e)
Was sagt Ihnen eine Chi-Quadrat-Statistik?
Es gibt zwei Hauptarten von Chi-Quadrat-Tests: den Unabhängigkeitstest, bei dem eine Frage der Beziehung gestellt wird, z. B. "Gibt es eine Beziehung zwischen Geschlecht und SAT-Werten?"; und der Goodness-of-Fit-Test, der so etwas wie "Wenn eine Münze 100 Mal geworfen wird, kommt sie dann 50 Mal auf den Kopf und 50 Mal nach oben?"
Bei diesen Tests werden Freiheitsgrade verwendet, um zu bestimmen, ob eine bestimmte Nullhypothese auf der Grundlage der Gesamtzahl der Variablen und Stichproben innerhalb des Experiments verworfen werden kann.
Zum Beispiel ist eine Stichprobengröße von 30 oder 40 Studenten unter Berücksichtigung von Studenten und Kurswahl wahrscheinlich nicht groß genug, um signifikante Daten zu generieren. Besser ist es, die gleichen oder ähnliche Ergebnisse aus einer Studie mit einer Stichprobengröße von 400 oder 500 Studenten zu erhalten.
In einem anderen Beispiel sollten Sie eine Münze 100 Mal werfen. Das erwartete Ergebnis des 100-maligen Werfens einer fairen Münze ist, dass die Köpfe 50-mal und die Schwänze 50-mal steigen. Das tatsächliche Ergebnis könnte sein, dass der Kopf 45-mal und der Schwanz 55-mal hoch kommt. Die Chi-Quadrat-Statistik zeigt Abweichungen zwischen den erwarteten und den tatsächlichen Ergebnissen.
Beispiel eines Chi-Quadrat-Tests
Stellen Sie sich vor, eine zufällige Umfrage wurde unter 2.000 verschiedenen Wählern durchgeführt, sowohl unter Männern als auch unter Frauen. Die Personen, die geantwortet haben, wurden nach Geschlecht und ob sie republikanisch, demokratisch oder unabhängig waren, klassifiziert. Stellen Sie sich ein Raster mit den Spalten "Republikanisch", "Demokratisch" und "Unabhängig" sowie zwei Zeilen "Männlich" und "Weiblich" vor. Angenommen, die Daten der 2.000 Befragten lauten wie folgt:
Der erste Schritt zur Berechnung der Chi-Quadrat-Statistik besteht darin, die erwarteten Frequenzen zu ermitteln. Diese werden für jede "Zelle" im Raster berechnet. Da es zwei Kategorien von Geschlechtern und drei Kategorien von politischen Ansichten gibt, gibt es insgesamt sechs erwartete Häufigkeiten. Die Formel für die erwartete Häufigkeit lautet:
E (r, c) = n (r) × c (r) wo: r = Zeile in Frage c = Spalte in Frage n = entsprechende Summe \ begin {align} & E (r, c) = \ frac {n (r) mal c (r)} {n} \ & \ textbf {wobei:} \ & r = \ text {fragliche Zeile} \ & c = \ text {fragliche Spalte} \ & n = \ text {entsprechende Summe} \ \ end {align} E (r, c) = nn (r) × c (r) Dabei gilt: r = Zeile in Frage c = Spalte in Frage n = entsprechende Summe
In diesem Beispiel sind die erwarteten Frequenzen:
- E (1, 1) = (900 × 800) / 2.000 = 360E (1, 2) = (900 × 800) / 2.000 = 360E (1, 3) = (200 × 800) / 2.000 = 80E (2, 1) = (900 × 1.200) / 2.000 = 540E (2, 2) = (900 × 1.200) / 2.000 = 540E (2, 3) = (200 × 1.200) / 2.000 = 120
Als nächstes werden diese Werte verwendet, um die Chi-Quadrat-Statistik unter Verwendung der folgenden Formel zu berechnen:
Chi-Quadrat = ∑2E (r, c) wobei: O (r, c) = beobachtete Daten für die angegebene Zeile und Spalte \ begin {align} & \ text {Chi-Quadrat} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {where:} \ & O (r, c) = \ text {beobachtete Daten für die angegebene Zeile und Spalte} \ \ end {align} Chi-squared = ∑E (r, c) 2 wobei: O (r, c) = beobachtete Daten für die angegebene Zeile und Spalte
In diesem Beispiel lautet der Ausdruck für jeden beobachteten Wert:
- O (1, 1) = (400 - 360) 2/360 = 4, 440 (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 50 (2, 1) = (500 - 540) 2/540 = 2, 96 O (2, 2) = (600 - 540) 2/540 = 6, 67 O (2, 3) = (100 - 120) 2/120 = 3, 33
Die Chi-Quadrat-Statistik entspricht dann der Summe dieser Werte oder 32, 41. Anhand einer Chi-Quadrat-Statistiktabelle können wir dann anhand der Freiheitsgrade in unserer Konfiguration feststellen, ob das Ergebnis statistisch signifikant ist oder nicht.