Was sind nichtparametrische Statistiken?
Nichtparametrische Statistiken beziehen sich auf eine statistische Methode, bei der die Daten nicht für eine Normalverteilung erforderlich sind. Nichtparametrische Statistiken verwenden häufig ordinale Daten, dh, sie basieren nicht auf Zahlen, sondern auf einer Rangfolge oder Sortierung. Beispielsweise würde eine Umfrage, die Verbraucherpräferenzen von „Gefällt mir“ bis „Gefällt mir nicht“ vermittelt, als ordinale Daten betrachtet.
Nichtparametrische Statistiken umfassen nichtparametrische deskriptive Statistiken, statistische Modelle, Inferenzen und statistische Tests. Die Modellstruktur nichtparametrischer Modelle wird nicht a priori festgelegt, sondern aus Daten ermittelt. Der Begriff nichtparametrisch bedeutet nicht, dass solchen Modellen Parameter vollständig fehlen, sondern dass Anzahl und Art der Parameter flexibel und nicht im Voraus festgelegt sind. Ein Histogramm ist ein Beispiel für eine nichtparametrische Schätzung einer Wahrscheinlichkeitsverteilung.
Grundlegendes zu nichtparametrischen Statistiken
In der Statistik enthält die parametrische Statistik Parameter wie Mittelwert, Median, Standardabweichung, Varianz usw. Diese Form der Statistik verwendet die beobachteten Daten, um die Parameter der Verteilung zu schätzen. In der parametrischen Statistik wird angenommen, dass die Daten zu einer Normalverteilung mit unbekannten Parametern μ (Populationsmittelwert) und σ 2 (Populationsvarianz) passen, die dann anhand des Stichprobenmittelwerts und der Stichprobenvarianz geschätzt werden.
In der nichtparametrischen Statistik wird keine Aussage über die Stichprobengröße oder die Quantität der beobachteten Daten getroffen.
Bei nichtparametrischen Statistiken wird nicht davon ausgegangen, dass die Daten aus einer Normalverteilung stammen. Stattdessen wird die Form der Verteilung unter dieser Form der statistischen Messung geschätzt. Während es viele Situationen gibt, in denen eine Normalverteilung angenommen werden kann, gibt es auch einige Szenarien, in denen nicht festgestellt werden kann, ob die Daten normal verteilt werden.
Beispiele für nichtparametrische Statistiken
Stellen Sie sich im ersten Beispiel einen Forscher vor, der eine Schätzung der Anzahl der mit braunen Augen geborenen Babys in Nordamerika durchführen möchte, um eine Stichprobe von 150.000 Babys zu entnehmen und eine Analyse des Datensatzes durchzuführen. Die Messung, die sie ableiten, wird als Schätzung der gesamten Population von Babys mit braunen Augen verwendet, die im folgenden Jahr geboren wurden.
Betrachten Sie als zweites Beispiel einen anderen Forscher, der wissen möchte, ob er früh oder spät ins Bett geht, und der damit zusammenhängt, wie häufig er krank wird. Unter der Annahme, dass die Stichprobe zufällig aus der Population ausgewählt wird, kann die Stichprobengrößenverteilung der Krankheitshäufigkeit als normal angenommen werden. Es kann jedoch nicht davon ausgegangen werden, dass ein Experiment, das die Resistenz des menschlichen Körpers gegen einen Bakterienstamm misst, eine normale Verteilung aufweist.
Dies liegt daran, dass zufällig ausgewählte Probendaten eine Beständigkeit gegen die Beanspruchung darstellen können. Wenn der Forscher andererseits Faktoren wie die genetische Verfassung und die ethnische Zugehörigkeit berücksichtigt, kann er feststellen, dass eine anhand dieser Merkmale ausgewählte Stichprobengröße möglicherweise nicht gegen den Stamm resistent ist. Daher kann man keine Normalverteilung annehmen.
Diese Methode ist nützlich, wenn die Daten keine eindeutige numerische Interpretation haben und am besten mit Daten verwendet werden, die eine Rangfolge aufweisen. Zum Beispiel kann für einen Persönlichkeitstest eine Rangfolge seiner Metriken als stark nicht einverstanden, nicht einverstanden, gleichgültig, einverstanden und stark einverstanden festgelegt werden. In diesem Fall sollten nichtparametrische Methoden angewendet werden.
Besondere Überlegungen
Nichtparametrische Statistiken haben aufgrund ihrer Benutzerfreundlichkeit an Bedeutung gewonnen. Da keine Parameter mehr erforderlich sind, können die Daten für eine größere Anzahl von Tests verwendet werden. Diese Art von Statistik kann ohne den Mittelwert, die Stichprobengröße, die Standardabweichung oder die Schätzung anderer zugehöriger Parameter verwendet werden, wenn keine dieser Informationen verfügbar ist.
Da in der nichtparametrischen Statistik weniger Annahmen über die Stichprobendaten getroffen werden, ist ihre Anwendung umfassender als in der parametrischen Statistik. In Fällen, in denen parametrische Tests besser geeignet sind, sind nichtparametrische Methoden weniger effizient. Dies liegt daran, dass die aus nichtparametrischen Statistiken erhaltenen Ergebnisse einen geringeren Grad an Zuverlässigkeit aufweisen, als wenn die Ergebnisse unter Verwendung parametrischer Statistiken erhalten würden.
Die zentralen Thesen
- Nichtparametrische Statistiken sind einfach zu verwenden, bieten jedoch nicht die Genauigkeit anderer statistischer Modelle. Diese Art der Analyse ist am besten geeignet, wenn die Reihenfolge von Elementen berücksichtigt wird. Auch wenn sich die numerischen Daten ändern, bleiben die Ergebnisse wahrscheinlich gleich.