Was ist die Summe der Quadrate?
Die Quadratsumme ist eine statistische Technik, die bei der Regressionsanalyse zur Bestimmung der Streuung von Datenpunkten verwendet wird. In einer Regressionsanalyse soll ermittelt werden, wie gut eine Datenreihe an eine Funktion angepasst werden kann, um zu erklären, wie die Datenreihe generiert wurde. Die Quadratsumme wird als mathematische Methode verwendet, um die Funktion zu finden, die am besten zu den Daten passt (am wenigsten davon abweicht).
Die Formel für die Summe der Quadrate lautet
Um die Umstellung zu erleichtern, müssen Sie Für eine Menge X von n Elementen: Summe der Quadrate = i = 0∑n (Xi −X) 2Wo: Xi = Das i-te Element in der MengeX = Der Mittelwert aller Elemente in der Menge (Xi −X) = Die Abweichung jedes Elements vom Mittelwert
Die Summe der Quadrate wird auch als Variation bezeichnet.
Was sagt Ihnen die Summe der Quadrate?
Die Summe der Quadrate ist ein Maß für die Abweichung vom Mittelwert. In der Statistik ist der Mittelwert der Durchschnitt einer Reihe von Zahlen und das am häufigsten verwendete Maß für die zentrale Tendenz. Das arithmetische Mittel wird einfach berechnet, indem die Werte im Datensatz summiert und durch die Anzahl der Werte dividiert werden.
Angenommen, die Schlusskurse von Microsoft (MSFT) in den letzten fünf Tagen betrugen 74, 01, 74, 77, 73, 94, 73, 61 und 73, 40 in US-Dollar. Die Summe der Gesamtpreise beträgt 369, 73 USD und der Mittelwert oder Durchschnittspreis des Lehrbuchs würde somit 369, 73 USD / 5 = 73, 95 USD betragen.
Es reicht jedoch nicht immer aus, den Mittelwert eines Messsatzes zu kennen. Manchmal ist es hilfreich zu wissen, wie stark die Messungen variieren. Wie weit die einzelnen Werte vom Mittelwert entfernt sind, kann Aufschluss darüber geben, wie gut die Beobachtungen oder Werte mit dem erstellten Regressionsmodell übereinstimmen.
Wenn ein Analyst beispielsweise wissen möchte, ob sich der Aktienkurs von MSFT parallel zum Kurs von Apple (AAPL) bewegt, kann er die Beobachtungen für den Prozess beider Aktien für einen bestimmten Zeitraum auflisten, z. B. 1, 2 oder 10 Jahre und erstellen Sie ein lineares Modell mit jeder der Beobachtungen oder Messungen aufgezeichnet. Wenn die Beziehung zwischen beiden Variablen (dh dem Preis von AAPL und dem Preis von MSFT) keine gerade Linie ist, müssen Abweichungen im Datensatz überprüft werden.
Wenn in der Statistik die Linie im erstellten linearen Modell nicht alle Wertmessungen durchläuft, ist ein Teil der Variabilität, die bei den Aktienkursen beobachtet wurde, unerklärt. Die Summe der Quadrate wird verwendet, um zu berechnen, ob eine lineare Beziehung zwischen zwei Variablen besteht, und jede unerklärte Variabilität wird als Restsumme der Quadrate bezeichnet.
Die Summe der Quadrate ist die Summe der Variationsquadrate, wobei die Variation als der Abstand zwischen jedem einzelnen Wert und dem Mittelwert definiert ist. Um die Summe der Quadrate zu bestimmen, wird der Abstand zwischen jedem Datenpunkt und der Linie der besten Anpassung quadriert und dann aufsummiert. Die Linie der besten Anpassung minimiert diesen Wert.
So berechnen Sie die Summe der Quadrate
Jetzt können Sie sehen, warum die Messung als Summe der quadratischen Abweichungen oder kurz als Summe der Quadrate bezeichnet wird. Anhand des obigen MSFT-Beispiels kann die Summe der Quadrate wie folgt berechnet werden:
- SS = (74, 01 - 73, 95) 2 + (74, 77 - 73, 95) 2 + (73, 94 - 73, 95) 2 + (73, 61 - 73, 95) 2 + (73, 40 - 73, 95) 2 SS = (0, 06) 2 + (0, 82) 2 + (- 0, 01) 2 + (-0, 34) 2 + (-0, 55) 2 SS = 1, 0942
Addiert man nur die Summe der Abweichungen ohne Quadrierung, ergibt sich eine Zahl gleich oder nahe Null, da die negativen Abweichungen die positiven Abweichungen nahezu perfekt ausgleichen. Um eine realistischere Zahl zu erhalten, muss die Summe der Abweichungen quadriert werden. Die Summe der Quadrate ist immer eine positive Zahl, da das Quadrat jeder positiven oder negativen Zahl immer positiv ist.
Beispiel für die Verwendung der Quadratsumme
Basierend auf den Ergebnissen der MSFT-Berechnung weist eine hohe Quadratsumme darauf hin, dass die meisten Werte weiter vom Mittelwert entfernt sind und daher eine große Variabilität in den Daten besteht. Eine niedrige Quadratsumme bedeutet eine geringe Variabilität in der Menge der Beobachtungen.
Im obigen Beispiel zeigt 1.0942, dass die Variabilität des Aktienkurses von MSFT in den letzten fünf Tagen sehr gering ist und Anleger, die in Aktien investieren möchten, die sich durch Preisstabilität und geringe Volatilität auszeichnen, sich möglicherweise für MSFT entscheiden.
Die zentralen Thesen
- Die Summe der Quadrate misst die Abweichung der Datenpunkte vom Mittelwert. Ein höheres Ergebnis der Quadratsumme zeigt ein hohes Maß an Variabilität innerhalb des Datensatzes an, während ein niedrigeres Ergebnis anzeigt, dass die Daten erheblich vom Mittelwert abweichen.
Einschränkungen bei der Verwendung der Quadratsumme
Um eine Anlageentscheidung über den Kauf einer Aktie zu treffen, sind weitaus mehr Beobachtungen erforderlich als die hier aufgeführten. Ein Analyst muss möglicherweise mit jahrelangen Daten arbeiten, um mit höherer Sicherheit zu wissen, wie hoch oder niedrig die Variabilität eines Vermögenswerts ist. Je mehr Datenpunkte zum Satz hinzugefügt werden, desto größer wird die Summe der Quadrate, je breiter die Werte sind.
Die am häufigsten verwendeten Variationsmessungen sind die Standardabweichung und die Varianz. Um jedoch eine der beiden Metriken zu berechnen, muss zuerst die Summe der Quadrate berechnet werden. Die Varianz ist der Durchschnitt der Summe der Quadrate (dh die Summe der Quadrate geteilt durch die Anzahl der Beobachtungen). Die Standardabweichung ist die Quadratwurzel der Varianz.
Es gibt zwei Methoden der Regressionsanalyse, die die Summe der Quadrate verwenden: die Methode der linearen kleinsten Quadrate und die Methode der nichtlinearen kleinsten Quadrate. Die Methode der kleinsten Quadrate bezieht sich auf die Tatsache, dass die Regressionsfunktion die Summe der Quadrate der Varianz von den tatsächlichen Datenpunkten minimiert. Auf diese Weise ist es möglich, eine Funktion zu zeichnen, die statistisch die beste Anpassung für die Daten liefert. Beachten Sie, dass eine Regressionsfunktion entweder linear (eine gerade Linie) oder nicht linear (eine gekrümmte Linie) sein kann.