Was ist lineare Regression?
Die lineare Regression ist eine grafische Darstellung der linearen Beziehung zwischen einer unabhängigen und einer abhängigen Variablen. Es wird in der Regel verwendet, um die Stärke der Beziehung und die Streuung der Ergebnisse visuell darzustellen - alles zum Zwecke der Erklärung des Verhaltens der abhängigen Variablen.
Angenommen, wir wollten die Stärke der Beziehung zwischen der Menge an gegessenem Eis und Fettleibigkeit testen. Wir würden die unabhängige Variable, die Menge an Eis, nehmen und sie mit der abhängigen Variablen, Fettleibigkeit, in Beziehung setzen, um zu sehen, ob es eine Beziehung gibt. Wenn eine Regression eine grafische Darstellung dieser Beziehung ist, ist die Beziehung umso stärker und die Anpassung an die Regressionslinie umso enger, je geringer die Variabilität in den Daten ist.
Die zentralen Thesen
- Die lineare Regression modelliert die Beziehung zwischen einer abhängigen und einer unabhängigen Variablen. Die Regressionsanalyse kann durchgeführt werden, wenn die Variablen unabhängig sind, keine Heteroskedastizität vorliegt und die Fehlerterme der Variablen nicht korreliert werden. Die Modellierung der linearen Regression in Excel ist einfacher das Datenanalyse-ToolPak.
Wichtige Überlegungen
Es gibt einige kritische Annahmen zu Ihrer Datenmenge, die zutreffen müssen, um mit einer Regressionsanalyse fortzufahren:
- Die Variablen müssen wirklich unabhängig sein (unter Verwendung eines Chi-Quadrat-Tests). Die Daten dürfen keine unterschiedlichen Fehlervarianzen aufweisen (dies wird als Heteroskedastizität (auch als Heteroskedastizität mit Schreibweise bezeichnet). Die Fehlerausdrücke jeder Variablen dürfen nicht korreliert sein. Wenn nicht, bedeutet dies, dass die Variablen seriell korreliert sind.
Wenn diese drei Dinge kompliziert klingen, sind sie es. Die Auswirkung einer dieser Überlegungen, die nicht zutreffen, ist jedoch eine voreingenommene Schätzung. Im Grunde genommen würden Sie die Beziehung, die Sie messen, falsch angeben.
Regression in Excel ausgeben
Der erste Schritt bei der Ausführung der Regressionsanalyse in Excel besteht darin, zu überprüfen, ob das kostenlose Excel-Plugin Data Analysis ToolPak installiert ist. Dieses Plugin macht das Berechnen einer Reihe von Statistiken sehr einfach. Es ist nicht erforderlich, eine lineare Regressionslinie grafisch darzustellen, die Erstellung von Statistiktabellen ist jedoch einfacher. Um zu überprüfen, ob installiert, wählen Sie "Daten" in der Symbolleiste. Wenn "Datenanalyse" eine Option ist, ist die Funktion installiert und einsatzbereit. Falls nicht installiert, können Sie diese Option anfordern, indem Sie auf die Office-Schaltfläche klicken und "Excel-Optionen" auswählen.
Mit dem Data Analysis ToolPak können Sie mit wenigen Klicks eine Regressionsausgabe erstellen.
Die unabhängige Variable liegt im X-Bereich.
Nehmen wir an, wir möchten angesichts der Renditen des S & P 500 wissen, ob wir die Stärke und das Verhältnis der Aktienrenditen von Visa (V) einschätzen können. Der Visa (V) -Bestand gibt Daten zurück, die Spalte 1 als abhängige Variable ausfüllen. Der S & P 500 gibt Daten zurück und füllt Spalte 2 als unabhängige Variable.
- Wählen Sie "Daten" aus der Symbolleiste. Das Menü "Daten" wird angezeigt. Wählen Sie "Datenanalyse". Das Dialogfeld Datenanalyse - Analysewerkzeuge wird angezeigt. Wählen Sie im Menü "Regression" und klicken Sie auf "OK". Klicken Sie im Dialogfeld "Regression" auf das Feld "Y-Bereich eingeben" und wählen Sie die abhängigen variablen Daten (Visa (V) -Bestand aus Klicken Sie auf das Feld "Input X Range" und wählen Sie die unabhängigen variablen Daten aus (S & P 500 gibt zurück). Klicken Sie auf "OK", um die Ergebnisse auszuführen.
Interpretieren Sie die Ergebnisse
Mit diesen Daten (die gleichen aus unserem R-Quadrat-Artikel) erhalten wir die folgende Tabelle:
Der R 2 -Wert, auch als Bestimmungskoeffizient bekannt, misst den Anteil der Variation in der abhängigen Variablen, der durch die unabhängige Variable erklärt wird, oder wie gut das Regressionsmodell zu den Daten passt. Der R 2 -Wert reicht von 0 bis 1, und ein höherer Wert zeigt eine bessere Anpassung an. Der p-Wert oder Wahrscheinlichkeitswert liegt ebenfalls zwischen 0 und 1 und gibt an, ob der Test signifikant ist. Im Gegensatz zum R 2 -Wert ist ein kleinerer p-Wert günstig, da er eine Korrelation zwischen der abhängigen und der unabhängigen Variablen anzeigt.
Diagramm einer Regression in Excel
Wir können eine Regression in Excel darstellen, indem wir die Daten markieren und als Streudiagramm darstellen. Um eine Regressionslinie hinzuzufügen, wählen Sie "Layout" aus dem Menü "Diagrammtools". Wählen Sie im Dialogfeld "Trendlinie" und dann "Lineare Trendlinie". Um den R 2 -Wert hinzuzufügen, wählen Sie im Menü "Trendlinie" die Option "Weitere Trendlinienoptionen". Wählen Sie zuletzt die Option "R-Quadrat-Wert im Diagramm anzeigen". Das visuelle Ergebnis fasst die Stärke der Beziehung zusammen, allerdings auf Kosten der Nichtbereitstellung so detailliert wie die obige Tabelle.