Varianzinflationsfaktor

Verstehen Sie den Varianzinflationsfaktor (VIF) in der Regressionsanalyse

Wichtige Erkenntnisse

Ein Varianzinflationsfaktor (VIF) misst Überlappungen in Regressionsmodellen.
Ein hoher VIF bläht Fehler auf und erschwert die Modellinterpretation.
Ein VIF von 1 zeigt an, dass keine Multikollinearität vorliegt.
VIF-Werte von drei oder darunter sind in der Regel unbedenklich.
Multikollinearität beeinträchtigt die Zuverlässigkeit von Regressionsmodellen.

Was ist ein Varianzinflationsfaktor (VIF)?

Ein Varianzinflationsfaktor (VIF) gibt an, ob eine Ihrer Variablen zu ähnlich zu anderen in Ihrem Modell ist. Forscher und Statistiker verwenden VIF, um potenzielle Probleme in Modellen zu identifizieren, komplexe Datensätze zu interpretieren, ihre Ergebnisse zu validieren und irreführende Schlussfolgerungen zu vermeiden.

Ein hoher VIF kann Ihr Modell verwirrend und schwer interpretierbar machen, während ein niedriger VIF stabiler ist. Sie könnten VIF verwenden, um zu zeigen, wie Bildung, Erfahrung und Alter mit dem Gehalt einer Person zusammenhängen. Aber es könnte verwirrend werden – steigt das Gehalt aufgrund der Bildung, der Erfahrung oder des Alters? Daher möchten Sie das Alter möglicherweise ganz aus dem Modell entfernen, um es zuverlässiger zu machen.

Ein detaillierter Blick auf einen Varianzinflationsfaktor (VIF)

Ein Varianzinflationsfaktor ist ein Werkzeug, um den Grad der Multikollinearität zu identifizieren. Die multiple Regression wird verwendet, wenn jemand die Wirkung mehrerer Variablen auf ein bestimmtes Ergebnis testen möchte. Die abhängige Variable ist das Ergebnis, das von den unabhängigen Variablen – den Eingaben in das Modell – beeinflusst wird. Multikollinearität liegt vor, wenn eine lineare Beziehung oder Korrelation zwischen einer oder mehreren der unabhängigen Variablen oder Eingaben besteht.

Das Problem der Multikollinearität

Multikollinearität erzeugt ein Problem im multiplen Regressionsmodell, da sich die Eingaben gegenseitig beeinflussen. Daher sind sie nicht wirklich unabhängig, und es ist schwierig zu testen, wie sehr die Kombination der unabhängigen Variablen die abhängige Variable oder das Ergebnis innerhalb des Regressionsmodells beeinflusst.

Obwohl Multikollinearität die gesamte Vorhersagekraft eines Modells nicht verringert, kann sie Schätzungen der Regressionskoeffizienten erzeugen, die statistisch nicht signifikant sind. In gewisser Weise kann man es als eine Art Doppelzählung im Modell betrachten.

In statistischer Hinsicht wird ein multiples Regressionsmodell mit hoher Multikollinearität es erschweren, die Beziehung zwischen jeder der unabhängigen Variablen und der abhängigen Variablen zu schätzen. Mit anderen Worten, wenn zwei oder mehr unabhängige Variablen eng miteinander verbunden sind oder fast dasselbe messen, dann wird der zugrunde liegende Effekt, den sie messen, zweimal (oder öfter) über die Variablen hinweg erfasst. Wenn die unabhängigen Variablen eng miteinander verbunden sind, wird es schwierig zu sagen, welche Variable die abhängige Variable beeinflusst.

Kleine Änderungen in den verwendeten Daten oder in der Struktur der Modellgleichung können große und unregelmäßige Änderungen in den geschätzten Koeffizienten der unabhängigen Variablen verursachen. Dies ist ein Problem, da das Ziel vieler ökonometrischer Modelle darin besteht, genau diese Art von statistischer Beziehung zwischen den unabhängigen Variablen und der abhängigen Variablen zu testen.

Tests zur Lösung von Multikollinearität

Um sicherzustellen, dass das Modell korrekt spezifiziert ist und richtig funktioniert, können Tests auf Multikollinearität durchgeführt werden. Der Varianzinflationsfaktor ist ein solches Messinstrument. Die Verwendung von Varianzinflationsfaktoren hilft, den Schweregrad von Multikollinearitätsproblemen zu identifizieren, sodass das Modell angepasst werden kann. Der Varianzinflationsfaktor misst, wie sehr das Verhalten (die Varianz) einer unabhängigen Variablen durch ihre Interaktion/Korrelation mit den anderen unabhängigen Variablen beeinflusst oder aufgebläht wird.

Varianzinflationsfaktoren ermöglichen eine schnelle Messung, wie sehr eine Variable zum Standardfehler in der Regression beiträgt. Wenn signifikante Multikollinearitätsprobleme bestehen, wird der Varianzinflationsfaktor für die beteiligten Variablen sehr groß sein. Nachdem diese Variablen identifiziert wurden, können verschiedene Ansätze verwendet werden, um kollineare Variablen zu eliminieren oder zu kombinieren und so das Multikollinearitätsproblem zu lösen.

So berechnen Sie den VIF: Die Formel erklärt

Die Formel für den VIF lautet:

VIFi=11−Ri2wobei:Ri2=Unangepasstes Bestimmtheitsmaß für dieRegression der i-ten unabhängigen Variable aufdie übrigen\begin{aligned}&\text{VIF}_i = \frac{ 1 }{ 1 - R_i^2 } \\&\textbf{where:} \\&R_i^2 = \text{Unadjusted coefficient of determination for} \\&\text{regressing the ith independent variable on the} \\&\text{remaining ones} \\\end{aligned}

Erkenntnisse aus dem VIF

Wenn Ri2 gleich 0 ist und daher VIF oder Toleranz gleich 1 ist, ist die i-te unabhängige Variable nicht mit den übrigen korreliert, was bedeutet, dass keine Multikollinearität vorliegt.

Im Allgemeinen gilt:

VIF gleich 1 = Variablen sind nicht korreliert

VIF zwischen 1 und 5 = Variablen sind mäßig korreliert

VIF größer als 5 = Variablen sind stark korreliert1

Je höher der VIF, desto höher die Wahrscheinlichkeit, dass Multikollinearität vorliegt, und es sind weitere Untersuchungen erforderlich. Wenn der VIF höher als 10 ist, liegt eine signifikante Multikollinearität vor, die korrigiert werden muss.

VIF in der Praxis: Ein Beispiel

Angenommen, ein Wirtschaftswissenschaftler möchte testen, ob ein statistisch signifikanter Zusammenhang zwischen der Arbeitslosenquote (unabhängige Variable) und der Inflationsrate (abhängige Variable) besteht. Das Hinzufügen weiterer unabhängiger Variablen, die mit der Arbeitslosenquote zusammenhängen, wie z. B. neue Erstanträge auf Arbeitslosenunterstützung, würde wahrscheinlich Multikollinearität in das Modell einführen.

Das Gesamtmodell könnte eine starke, statistisch ausreichende Erklärungskraft zeigen, aber nicht in der Lage sein zu identifizieren, ob der Effekt hauptsächlich auf die Arbeitslosenquote oder auf die neuen Erstanträge auf Arbeitslosenunterstützung zurückzuführen ist. Dies würde der VIF erkennen, und er würde vorschlagen, möglicherweise eine der Variablen aus dem Modell zu entfernen oder einen Weg zu finden, sie zu konsolidieren, um ihren gemeinsamen Effekt zu erfassen, je nachdem, welche spezifische Hypothese der Forscher testen möchte.

Was ist ein guter VIF-Wert?

Als Faustregel gilt: Ein VIF von drei oder darunter ist kein Grund zur Besorgnis. Je höher der VIF, desto weniger zuverlässig werden Ihre Regressionsergebnisse sein.

Was bedeutet ein VIF von 1?

Ein VIF gleich eins bedeutet, dass die Variablen nicht korreliert sind und im Regressionsmodell keine Multikollinearität vorliegt.

Wofür wird VIF verwendet?

VIF misst die Stärke der Korrelation zwischen den unabhängigen Variablen in der Regressionsanalyse. Diese Korrelation wird als Multikollinearität bezeichnet und kann Probleme für Regressionsmodelle verursachen.