Was ist multiple lineare Regression - MLR?
Multiple lineare Regression (MLR), auch einfach als multiple Regression bezeichnet, ist eine statistische Technik, die mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen. Das Ziel der multiplen linearen Regression (MLR) besteht darin, die lineare Beziehung zwischen den erklärenden (unabhängigen) Variablen und der antwortenden (abhängigen) Variablen zu modellieren.
Im Wesentlichen ist die multiple Regression die Erweiterung der gewöhnlichen Regression der kleinsten Quadrate (OLS), die mehr als eine erklärende Variable umfasst.
Die Formel für die multiple lineare Regression lautet
Um die Umstellung zu erleichtern, müssen Sie Yi = β0 + β1 xi1 + β2 xi2 +… + βp xip + ϵwobei für i = n Beobachtungen gilt: yi = abhängige Variable xi = expanatorische Variable β0 = y-Achsenabschnitt (Konstante term) βp = Steigungskoeffizienten für jede erklärende Variableϵ = der Fehlerterm des Modells (auch als Residuen bekannt)
Erklärung der multiplen linearen Regression
Eine einfache lineare Regression ist eine Funktion, die es einem Analysten oder Statistiker ermöglicht, Vorhersagen über eine Variable auf der Grundlage der Informationen zu treffen, die über eine andere Variable bekannt sind. Die lineare Regression kann nur verwendet werden, wenn zwei kontinuierliche Variablen vorhanden sind - eine unabhängige und eine abhängige Variable. Die unabhängige Variable ist der Parameter, mit dem die abhängige Variable oder das abhängige Ergebnis berechnet wird. Ein multiples Regressionsmodell erstreckt sich auf mehrere erklärende Variablen.
Das multiple Regressionsmodell basiert auf den folgenden Annahmen:
- Zwischen den abhängigen Variablen und den unabhängigen Variablen besteht eine lineare Beziehung. Die unabhängigen Variablen sind nicht zu stark miteinander korreliert. Die Beobachtungen werden unabhängig und zufällig aus der Grundgesamtheit ausgewählt. Die Reste sollten normal mit einem Mittelwert von 0 und der Varianz verteilt werden σ.
Der Bestimmungskoeffizient (R-Quadrat) ist eine statistische Metrik, die verwendet wird, um zu messen, wie viel der Variation des Ergebnisses durch die Variation der unabhängigen Variablen erklärt werden kann. R 2 steigt immer an, wenn mehr Prädiktoren zum MLR-Modell hinzugefügt werden, obwohl die Prädiktoren möglicherweise nicht mit der Ergebnisvariablen in Beziehung stehen.
R 2 allein kann daher nicht verwendet werden, um zu identifizieren, welche Prädiktoren in ein Modell einbezogen und welche ausgeschlossen werden sollten. R 2 kann nur zwischen 0 und 1 liegen, wobei 0 angibt, dass das Ergebnis von keiner der unabhängigen Variablen vorhergesagt werden kann, und 1 angibt, dass das Ergebnis ohne Fehler von den unabhängigen Variablen vorhergesagt werden kann.
Bei der Interpretation der Ergebnisse einer multiplen Regression sind Beta-Koeffizienten gültig, während alle anderen Variablen konstant bleiben ("alle anderen gleich"). Die Ausgabe einer Mehrfachregression kann horizontal als Gleichung oder vertikal in Tabellenform angezeigt werden.
Beispiel mit multipler linearer Regression
Ein Analyst möchte beispielsweise wissen, wie sich die Marktbewegung auf den Preis von Exxon Mobil (XOM) auswirkt. In diesem Fall hat seine lineare Gleichung den Wert des S & P 500-Index als unabhängige Variable oder Prädiktor und den Preis von XOM als abhängige Variable.
In Wirklichkeit gibt es mehrere Faktoren, die den Ausgang eines Ereignisses vorhersagen. Die Preisentwicklung von Exxon Mobil hängt zum Beispiel nicht nur von der Entwicklung des Gesamtmarktes ab. Andere Prädiktoren wie der Ölpreis, die Zinssätze und die Preisbewegungen von Ölfutures können sich auf den Preis von XOM und die Aktienkurse anderer Ölunternehmen auswirken. Um eine Beziehung zu verstehen, in der mehr als zwei Variablen vorhanden sind, wird eine multiple lineare Regression verwendet.
Multiple lineare Regression (MLR) wird verwendet, um eine mathematische Beziehung zwischen einer Anzahl von Zufallsvariablen zu bestimmen. Mit anderen Worten, MLR untersucht, wie mehrere unabhängige Variablen mit einer abhängigen Variablen verknüpft sind. Sobald jeder der unabhängigen Faktoren bestimmt wurde, um die abhängige Variable vorherzusagen, können die Informationen zu den mehreren Variablen verwendet werden, um eine genaue Vorhersage über den Grad der Auswirkung auf die Ergebnisvariable zu erstellen. Das Modell erstellt eine Beziehung in Form einer geraden Linie (linear), die sich allen einzelnen Datenpunkten am besten annähert.
Unter Bezugnahme auf die obige MLR-Gleichung in unserem Beispiel:
- y i = abhängige Variable: Preis von XOMx i1 = Zinssätzex i2 = Ölpreisx i3 = Wert des S & P 500-Indexx i4 = Preis der Öl-FuturesB 0 = y-Achsenabschnitt zum Zeitpunkt NullB 1 = Regressionskoeffizient, der eine Änderung der abhängigen Einheit misst Variable bei Änderung von x i1 - die Änderung des XOM-Preises bei Änderung der ZinssätzeB 2 = Koeffizientenwert, der eine Änderung der abhängigen Variablen bei Änderung von x i2 misst - die Änderung des XOM-Preises bei Änderung der Ölpreise
Die Schätzungen der kleinsten Quadrate B 0, B 1, B 2 … B p werden normalerweise durch statistische Software berechnet. Es können beliebig viele Variablen in das Regressionsmodell einbezogen werden, in denen jede unabhängige Variable mit einer Zahl von 1, 2, 3, 4… p differenziert wird. Das multiple Regressionsmodell ermöglicht es einem Analysten, ein Ergebnis basierend auf Informationen zu mehreren erklärenden Variablen vorherzusagen.
Das Modell ist jedoch nicht immer genau, da jeder Datenpunkt geringfügig vom vom Modell vorhergesagten Ergebnis abweichen kann. Der Restwert E, der die Differenz zwischen dem tatsächlichen und dem vorhergesagten Ergebnis darstellt, wird in das Modell aufgenommen, um solche geringfügigen Abweichungen zu berücksichtigen.
Angenommen, wir führen unser XOM-Preisregressionsmodell über eine Statistik-Berechnungssoftware aus, die diese Ausgabe zurückgibt:
Ein Analyst würde diese Ausgabe so interpretieren, dass der Preis von XOM um 7, 8% steigt, wenn andere Variablen konstant gehalten werden, wenn der Ölpreis auf den Märkten um 1% steigt. Das Modell zeigt auch, dass der Preis von XOM nach einem Anstieg der Zinssätze um 1% um 1, 5% sinken wird. R 2 gibt an, dass 86, 5% der Schwankungen des Aktienkurses von Exxon Mobil durch Änderungen des Zinssatzes, des Ölpreises, der Öl-Futures und des S & P 500-Index erklärt werden können.
Die zentralen Thesen
- Multiple lineare Regression (MLR), auch einfach als multiple Regression bezeichnet, ist eine statistische Technik, die mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen. Multiple Regression ist eine Erweiterung der linearen (OLS) Regression, die nur eine erklärende Variable verwendet. MLR wird in großem Umfang in der Ökonometrie und in der Finanzinferenz eingesetzt.
Der Unterschied zwischen linearer und multipler Regression
Die lineare (OLS) Regression vergleicht die Reaktion einer abhängigen Variablen bei einer Änderung einer erklärenden Variablen. Es ist jedoch selten, dass eine abhängige Variable nur durch eine Variable erklärt wird. In diesem Fall verwendet ein Analyst eine multiple Regression, die versucht, eine abhängige Variable mit mehr als einer unabhängigen Variablen zu erklären. Mehrere Regressionen können linear und nichtlinear sein.
Mehrere Regressionen basieren auf der Annahme, dass zwischen den abhängigen und den unabhängigen Variablen eine lineare Beziehung besteht. Es wird auch keine größere Korrelation zwischen den unabhängigen Variablen angenommen.