Mlr

Multiple Lineare Regression (MLR): Definition, Anwendungen und Beispiele

Wichtige Erkenntnisse

Die multiple lineare Regression (MLR) sagt eine Zielvariable mithilfe mehrerer erklärender Variablen vorher.
Die MLR modelliert den linearen Zusammenhang zwischen unabhängigen und abhängigen Variablen.
Die MLR ist eine Erweiterung der einfachen linearen Regression (OLS) um mehrere erklärende Variablen.
Die Technik wird aufgrund ihrer Fähigkeit, Ergebnisse in komplexen Szenarien vorherzusagen, häufig eingesetzt.
Das Verständnis der MLR kann dabei helfen, Erkenntnisse aus Datensätzen mit mehreren Variablen zu gewinnen.

Was ist multiple lineare Regression (MLR)?

Die multiple lineare Regression (MLR), auch einfach als multiple Regression bekannt, ist eine statistische Technik, die mehrere erklärende Variablen verwendet, um das Ergebnis einer Zielvariablen vorherzusagen. Das Ziel der MLR ist es, den linearen Zusammenhang zwischen den erklärenden (unabhängigen) Variablen und der Zielvariablen (abhängigen Variablen) zu modellieren. Im Wesentlichen ist die multiple Regression die Erweiterung der einfachen linearen Regression (OLS), da sie mehr als eine erklärende Variable umfasst.

Durchführung einer multiplen linearen Regression: Eine Schritt-für-Schritt-Anleitung

yi=β0+β1xi1+β2xi2+...+βpxip+ϵwhere, for i=n observations:yi=dependent variablexi=explanatory variablesβ0=y-intercept (constant term)βp=slope coefficients for each explanatory variableϵ=the model’s error term (also known as the residuals)\begin{aligned}&y_i = \beta_0 + \beta _1 x_{i1} + \beta _2 x_{i2} + ... + \beta _p x_{ip} + \epsilon\\&\textbf{where, for } i = n \textbf{ observations:}\\&y_i=\text{dependent variable}\\&x_i=\text{explanatory variables}\\&\beta_0=\text{y-intercept (constant term)}\\&\beta_p=\text{slope coefficients for each explanatory variable}\\&\epsilon=\text{the model's error term (also known as the residuals)}\end{aligned}yi=β0+β1xi1+β2xi2+...+βpxip+ϵwhere, for i=n observations:yi=dependent variablexi=explanatory variablesβ0=y-intercept (constant term)βp=slope coefficients for each explanatory variableϵ=the model’s error term (also known as the residuals)

Befolgen Sie diese Schritte, um die Berechnung durchzuführen:

Identifizieren Sie die erklärenden Variablen, die Sie für die Regressionsanalyse verwenden möchten.

Sammeln Sie Daten zu diesen Variablen sowie zur Zielvariablen.

Verwenden Sie eine Statistiksoftware, um die Daten einzugeben und die Regressionsanalyse durchzuführen.

Analysieren Sie die Ausgabe, um die Beziehungen zwischen den Variablen zu verstehen.

Interpretieren Sie die Koeffizienten, um die Auswirkungen jeder erklärenden Variable auf die Zielvariable zu bewerten.

Was die multiple lineare Regression (MLR) Ihnen sagen kann

Die einfache lineare Regression ist eine Funktion, die es einem Analysten oder Statistiker ermöglicht, Vorhersagen über eine Variable auf der Grundlage der Informationen zu treffen, die über eine andere Variable bekannt sind.

Die lineare Regression kann nur verwendet werden, wenn man zwei kontinuierliche Variablen hat – eine unabhängige Variable und eine abhängige Variable. Die unabhängige Variable ist der Parameter, der zur Berechnung der abhängigen Variablen oder des Ergebnisses verwendet wird. Ein multiples Regressionsmodell erweitert dies auf mehrere erklärende Variablen.

Das MLR-Modell basiert auf den folgenden Annahmen:

Es besteht ein linearer Zusammenhang zwischen den abhängigen Variablen und den unabhängigen Variablen

Die unabhängigen Variablen sind nicht zu stark miteinander korreliert

Die yi-Beobachtungen werden unabhängig und zufällig aus der Grundgesamtheit ausgewählt

Die Residuen sollten normalverteilt sein mit einem Mittelwert von 0 und einer Varianz σ

Wichtig

Die MLR geht von einem linearen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen aus, dass die unabhängigen Variablen nicht stark korreliert sind und dass die Varianz der Residuen konstant ist.

Das Bestimmtheitsmaß (R²) ist eine statistische Kennzahl, die misst, wie viel der Variation des Ergebnisses durch die Variation der unabhängigen Variablen erklärt werden kann. R² steigt immer an, wenn dem MLR-Modell mehr Prädiktoren hinzugefügt werden, auch wenn die Prädiktoren möglicherweise nicht mit der Ergebnisvariablen zusammenhängen.

Daher kann R² allein nicht verwendet werden, um zu bestimmen, welche Prädiktoren in ein Modell aufgenommen und welche ausgeschlossen werden sollten. R² kann nur zwischen 0 und 1 liegen, wobei 0 bedeutet, dass das Ergebnis durch keine der unabhängigen Variablen vorhergesagt werden kann, und 1 bedeutet, dass das Ergebnis fehlerfrei aus den unabhängigen Variablen vorhergesagt werden kann.

Bei der Interpretation der Ergebnisse einer multiplen Regression sind die Beta-Koeffizienten gültig, während alle anderen Variablen konstant gehalten werden („unter sonst gleichen Bedingungen"). Die Ausgabe einer multiplen Regression kann horizontal als Gleichung oder vertikal in tabellarischer Form dargestellt werden.

Beispiel für die Verwendung der multiplen linearen Regression (MLR)

Als Beispiel könnte ein Analyst wissen wollen, wie sich die Marktbewegung auf den Preis von ExxonMobil (XOM) auswirkt. In diesem Fall hat die lineare Gleichung den Wert des S&P 500 Index als unabhängige Variable oder Prädiktor und den Preis von XOM als abhängige Variable.

In der Realität sagen mehrere Faktoren das Ergebnis eines Ereignisses voraus. Die Preisbewegung von ExxonMobil hängt beispielsweise von mehr als nur der Performance des Gesamtmarktes ab.

Andere Prädiktoren wie der Ölpreis, die Zinssätze und die Preisbewegung von Ölterminkontrakten können den Preis von Exxon Mobil (XOM) und die Aktienkurse anderer Ölunternehmen beeinflussen. Um eine Beziehung zu verstehen, an der mehr als zwei Variablen beteiligt sind, wird die MLR verwendet.

Die MLR wird verwendet, um eine mathematische Beziehung zwischen mehreren Zufallsvariablen zu bestimmen. Mit anderen Worten: Die MLR untersucht, wie mehrere unabhängige Variablen mit einer abhängigen Variablen zusammenhängen.

Nachdem jeder der unabhängigen Faktoren zur Vorhersage der abhängigen Variablen bestimmt wurde, können die Informationen zu den mehreren Variablen verwendet werden, um eine genaue Vorhersage des Ausmaßes ihres Einflusses auf die Ergebnisvariable zu erstellen. Das Modell erstellt eine Beziehung in Form einer geraden Linie (linear), die alle einzelnen Datenpunkte bestmöglich annähert.

Bezug nehmend auf die MLR-Gleichung oben, in unserem Beispiel:

yi = abhängige Variable – der Preis von XOM

xi1 = Zinssätze

xi2 = Ölpreis

xi3 = Wert des S&P 500 Index

xi4 = Preis von Ölterminkontrakten

B0 = y-Achsenabschnitt zum Zeitpunkt null

B1 = Regressionskoeffizient, der eine Einheitenänderung der abhängigen Variablen misst, wenn sich xi1 ändert – die Änderung des XOM-Preises bei Änderung der Zinssätze

B2 = Koeffizientenwert, der eine Einheitenänderung der abhängigen Variablen misst, wenn sich xi2 ändert – die Änderung des XOM-Preises bei Änderung der Ölpreise

Die Schätzungen der kleinsten Quadrate – B0, B1, B2…Bp – werden in der Regel von einer Statistiksoftware berechnet. Es können beliebig viele Variablen in das Regressionsmodell aufgenommen werden, wobei jede unabhängige Variable durch eine Zahl unterschieden wird – 1, 2, 3, 4...p.

Kurzer Fakt

Die multiple Regression kann auch nichtlinear sein, wobei die abhängigen und unabhängigen Variablen keiner geraden Linie folgen würden.

Das multiple Regressionsmodell ermöglicht es einem Analysten, ein Ergebnis auf der Grundlage von Informationen vorherzusagen, die zu mehreren erklärenden Variablen bereitgestellt werden.

Dennoch ist das Modell nicht immer perfekt genau, da jeder Datenpunkt geringfügig von dem durch das Modell vorhergesagten Ergebnis abweichen kann. Der Residualwert E, der die Differenz zwischen dem tatsächlichen Ergebnis und dem vorhergesagten Ergebnis darstellt, wird in das Modell aufgenommen, um solche geringfügigen Abweichungen zu berücksichtigen.

Wir haben unser XOM-Preis-Regressionsmodell mit einer Statistikberechnungssoftware durchgeführt. Es lieferte diese Ausgabe:

Ein Analyst würde diese Ausgabe so interpretieren, dass bei Konstanthaltung der anderen Variablen der Preis von XOM um 7,8 % steigt, wenn der Ölpreis an den Märkten um 1 % steigt.

Das Modell zeigt auch, dass der Preis von XOM um 1,5 % sinkt, wenn die Zinssätze um 1 % steigen. R² zeigt, dass 86,5 % der Schwankungen des Aktienkurses von Exxon Mobil durch Änderungen der Zinssätze, des Ölpreises, der Ölterminkontrakte und des S&P 500 Index erklärt werden können.

Lineare vs. multiple Regression

Die einfache lineare Regression (OLS) vergleicht die Reaktion einer abhängigen Variablen auf eine Änderung einer erklärenden Variablen. Eine abhängige Variable wird jedoch selten durch nur eine Variable erklärt. In diesem Fall verwendet ein Analyst die multiple Regression, die versucht, eine abhängige Variable durch mehr als eine unabhängige Variable zu erklären.

Multiple Regressionen können linear und nichtlinear sein. Die MLR basiert auf der Annahme, dass ein linearer Zusammenhang zwischen der abhängigen und den unabhängigen Variablen besteht. Sie geht außerdem von keiner wesentlichen Korrelation zwischen den unabhängigen Variablen aus.

Einfach erklärt

Die multiple lineare Regression wird verwendet, um zu bestimmen, wie verschiedene Faktoren etwas beeinflussen, das Sie vorhersagen möchten. Beispielsweise versuchen Sie herauszufinden, wie hoch der Preis einer Ölaktie sein wird.

Anstatt nur einen Faktor zu betrachten, wie den Gesamtmarkt, berücksichtigt die MLR mehrere Faktoren gleichzeitig, wie Ölpreise, Zinssätze und den Marktindex, um eine bessere Vorhersage zu treffen. Jeder dieser Faktoren hat seinen eigenen Einfluss auf den Aktienkurs, und die MLR hilft zu berechnen, wie stark jeder einzelne ins Gewicht fällt.

Das MLR-Modell geht davon aus, dass die Beziehung zwischen dem Ergebnis (dem Aktienkurs) und den Faktoren linear ist und dass die Faktoren nicht stark miteinander korreliert sind. Das Ergebnis liefert ein klareres Bild davon, was die Veränderungen tatsächlich antreibt und wie stark der Einfluss jedes Faktors ist. Die MLR wird in der Finanzwirtschaft, der Ökonomie und anderen Bereichen eingesetzt, um Beziehungen zu verstehen und Vorhersagen zu treffen.

Was macht eine multiple Regression „multiple"?

Die multiple Regression berücksichtigt die Wirkung von mehr als einer erklärenden Variablen auf ein interessierendes Ergebnis. Sie bewertet den relativen Effekt dieser erklärenden oder unabhängigen Variablen auf die abhängige Variable, während alle anderen Variablen im Modell konstant gehalten werden.

Warum sollte man eine multiple Regression einer einfachen OLS-Regression vorziehen?

Eine abhängige Variable wird selten durch nur eine Variable erklärt. In solchen Fällen verwendet ein Analyst die multiple Regression, die versucht, eine abhängige Variable durch mehr als eine unabhängige Variable zu erklären. Das Modell geht jedoch davon aus, dass keine wesentlichen Korrelationen zwischen den unabhängigen Variablen bestehen.

Kann ich eine multiple Regression von Hand durchführen?

Das ist unwahrscheinlich, da multiple Regressionsmodelle komplex sind und noch komplexer werden, wenn mehr Variablen im Modell enthalten sind oder die zu analysierende Datenmenge wächst. Um eine multiple Regression durchzuführen, benötigen Sie wahrscheinlich spezielle Statistiksoftware oder Funktionen innerhalb von Programmen wie Excel.

Was bedeutet es, dass eine multiple Regression linear ist?

Bei der multiplen linearen Regression berechnet das Modell die am besten passende Gerade, die die Varianzen jeder der einbezogenen Variablen in Bezug auf die abhängige Variable minimiert. Da es eine Gerade anpasst, handelt es sich um ein lineares Modell. Es gibt auch nichtlineare Regressionsmodelle mit mehreren Variablen, wie logistische Regression, quadratische Regression und Probit-Modelle.

Wie werden multiple Regressionsmodelle in der Finanzwirtschaft eingesetzt?

Jedes ökonometrische Modell, das mehr als eine Variable betrachtet, kann ein multiples sein. Faktormodelle vergleichen zwei oder mehr Faktoren, um Beziehungen zwischen Variablen und die daraus resultierende Performance zu analysieren.

Das Drei-Faktoren-Modell nach Fama und French ist ein Modell, das das Capital Asset Pricing Model (CAPM) erweitert, indem es das Größenrisiko und den Wertrisikofaktor zum Marktrisikofaktor des CAPM (der selbst ein Regressionsmodell ist) hinzufügt. Durch die Aufnahme dieser beiden zusätzlichen Faktoren korrigiert das Modell diese Überrenditetendenz, was es vermeintlich zu einem besseren Instrument zur Bewertung der Managerleistung macht.