Was ist der Bestimmungskoeffizient?
Der Bestimmungskoeffizient ist ein Maß für die statistische Analyse, mit dem bewertet wird, wie gut ein Modell zukünftige Ergebnisse erklärt und vorhersagt. Es gibt Aufschluss über den Grad der erklärten Variabilität im Datensatz. Der Bestimmungskoeffizient, auch als "R-Quadrat" bekannt, wird als Richtlinie zur Messung der Genauigkeit des Modells verwendet.
Eine Möglichkeit zur Interpretation dieser Figur besteht darin, zu sagen, dass die in einem gegebenen Modell enthaltenen Variablen ungefähr x% der beobachteten Variation erklären. Wenn also R 2 = 0, 50 ist, kann ungefähr die Hälfte der beobachteten Variation durch das Modell erklärt werden.
R-Quadrat
Die zentralen Thesen
- Der Bestimmungskoeffizient ist eine komplexe Idee, die sich auf die statistische Analyse eines zukünftigen Datenmodells konzentriert. Der Bestimmungskoeffizient wird verwendet, um zu erklären, wie viel Variabilität eines Faktors durch seine Beziehung zu einem anderen Faktor verursacht werden kann.
Den Bestimmungskoeffizienten verstehen
Der Bestimmungskoeffizient wird verwendet, um zu erklären, wie viel Variabilität eines Faktors durch seine Beziehung zu einem anderen Faktor verursacht werden kann. Sie wird in der Trendanalyse stark genutzt und als Wert zwischen 0 und 1 dargestellt.
Je näher der Wert an 1 liegt, desto besser ist die Übereinstimmung oder Beziehung zwischen den beiden Faktoren. Der Bestimmungskoeffizient ist das Quadrat des Korrelationskoeffizienten, der auch als "R" bezeichnet wird und es ermöglicht, den Grad der linearen Korrelation zwischen zwei Variablen anzuzeigen.
Diese Korrelation wird als "Anpassungsgüte" bezeichnet. Ein Wert von 1, 0 zeigt eine perfekte Anpassung an und ist daher ein sehr zuverlässiges Modell für zukünftige Vorhersagen, das angibt, dass das Modell alle beobachteten Variationen erklärt. Ein Wert von 0 würde andererseits anzeigen, dass das Modell die Daten überhaupt nicht genau modelliert. Für ein Modell mit mehreren Variablen, z. B. ein Mehrfachregressionsmodell, ist das angepasste R 2 ein besserer Bestimmungskoeffizient. In der Wirtschaft wird ein R 2 -Wert über 0, 60 als sinnvoll angesehen.
Vorteile der Analyse des Bestimmungskoeffizienten
Der Bestimmungskoeffizient ist das Quadrat der Korrelation zwischen den vorhergesagten Bewertungen in einem Datensatz und der tatsächlichen Bewertung. Sie kann auch als Quadrat der Korrelation zwischen X- und Y-Werten ausgedrückt werden, wobei X die unabhängige Variable und Y die abhängige Variable ist.
Unabhängig von der Darstellung bedeutet ein R-Quadrat von 0, dass die abhängige Variable nicht mit der unabhängigen Variablen vorhergesagt werden kann. Umgekehrt bedeutet 1, dass die Abhängigkeit einer Variablen immer von der unabhängigen Variablen vorhergesagt wird.
Ein in diesen Bereich fallender Bestimmungskoeffizient misst das Ausmaß, in dem die abhängige Variable von der unabhängigen Variablen vorhergesagt wird. Ein R-Quadrat von 0, 20 bedeutet beispielsweise, dass 20% der abhängigen Variablen von der unabhängigen Variablen vorhergesagt werden.
Die Anpassungsgüte oder der Grad der linearen Korrelation misst den Abstand zwischen einer angepassten Linie in einem Diagramm und allen Datenpunkten, die im Diagramm verstreut sind. Die engen Datenmengen weisen eine Regressionslinie auf, die sehr nahe an den Punkten liegt, und weisen eine hohe Anpassung auf, was bedeutet, dass der Abstand zwischen der Linie und den Daten sehr gering ist. Eine gute Passform hat ein R-Quadrat nahe 1.
R-squared kann jedoch nicht bestimmen, ob die Datenpunkte oder Vorhersagen verzerrt sind. Es sagt dem Analytiker oder Benutzer auch nicht, ob der Bestimmungskoeffizientenwert gut ist oder nicht. Ein niedriges R-Quadrat ist zum Beispiel nicht schlecht und es liegt an der Person, eine Entscheidung basierend auf der R-Quadrat-Zahl zu treffen.
Der Bestimmungskoeffizient sollte nicht naiv interpretiert werden. Wenn beispielsweise das R-Quadrat eines Modells mit 75% angegeben wird, ist die Varianz seiner Fehler 75% geringer als die Varianz der abhängigen Variablen, und die Standardabweichung seiner Fehler ist 50% geringer als die Standardabweichung der abhängigen Variablen Variable. Die Standardabweichung der Modellfehler beträgt etwa ein Drittel der Standardabweichung der Fehler, die Sie mit einem Nur-Konstanten-Modell erhalten würden.
Schließlich gibt es möglicherweise keine statistische Signifikanz der erklärenden Variablen in einem Modell, selbst wenn ein R-Quadrat-Wert groß ist, oder die effektive Größe dieser Variablen kann in praktischer Hinsicht sehr klein sein.