winsorisierter Mittelwert
Winsorized Mean verstehen: Formel, Beispiele und Anwendungen
Was ist der Winsorized Mean?
Der Winsorized Mean ist eine Methode des Mittelwerts, die zunächst die kleinsten und größten Werte durch die nächstgelegenen Beobachtungen ersetzt. Dies geschieht, um den Einfluss von Ausreißern oder Extremwerten auf eine Berechnung zu begrenzen. Es wird in der Finanzanalyse verwendet, um Ausreißer-Verzerrungen zu reduzieren.
Nach dem Ersetzen der Werte wird die Formel des arithmetischen Mittels verwendet, um den Winsorized Mean zu berechnen. Dies unterscheidet sich vom Trimmed Mean, einer alternativen Formel, bei der Ausreißer ohne Ersatz entfernt werden.
Wichtige Erkenntnisse
- Der Winsorized Mean reduziert den Einfluss von Ausreißern, indem extreme Werte durch weniger extreme ersetzt werden.
- Er ist weniger empfindlich gegenüber Ausreißern als das traditionelle arithmetische Mittel.
- Der Winsorized Mean ist nützlich in den Bereichen Finanzen, Gesundheitswesen und Bildung, wo Daten verzerrt sein oder Ausreißer enthalten können.
- Winsorization-Levels bestimmen den Prozentsatz der ersetzten Extremwerte und können Hypothesentests beeinflussen.
- Im Gegensatz zum Trimmed Mean behält der Winsorized Mean einen Teil der ursprünglichen Spannweite und Variabilität des Datensatzes bei.
Berechnung des Winsorized Mean: Schritt für Schritt
Winsorized Mean = xn…xn+1 + xn+2…xnNwobei:n = Die Anzahl der größten und kleinsten Datenpunkte, die durch die nächstgelegene Beobachtung ersetzt werdenN = Gesamtzahl der Datenpunkte\begin{aligned} &\text{Winsorized Mean}\ =\ \frac{x_{n}\dots x_{n+1}\ +\ x_{n+2}\dots x_{n}}{N}\\ &\textbf{wobei:}\\ &\begin{aligned} n\ =\ &\text{Die Anzahl der größten und kleinsten Daten}\\ &\text{punkte, die durch die Beobachtung ersetzt werden,}\\ &\text{die ihnen am nächsten liegt}\end{aligned}\\ &N\ =\ \text{Gesamtzahl der Datenpunkte} \end{aligned}Winsorized Mean = Nxn…xn+1 + xn+2…xnwobei:n = Die Anzahl der größten und kleinsten Datenpunkte, die durch die nächstgelegene Beobachtung ersetzt werdenN = Gesamtzahl der Datenpunkte
Winsorized Means können auf zwei Arten ausgedrückt werden. Ein "kn"-Winsorized Mean ersetzt die "k" kleinsten und größten Werte, wobei "k" eine ganze Zahl ist. Ein "X%"-Winsorized Mean ersetzt einen Prozentsatz der Werte von beiden Enden der Daten.
Wichtig
Um den Winsorized Mean zu ermitteln, ersetzen Sie die kleinsten und größten Datenpunkte, summieren Sie alle Werte und teilen Sie durch die Gesamtzahl der Punkte.
Verständnis der Erkenntnisse aus dem Winsorized Mean
Der Winsorized Mean ist weniger empfindlich gegenüber Ausreißern, da er sie durch weniger extreme Werte ersetzen kann. Das heißt, er ist weniger anfällig für Ausreißer als der arithmetische Durchschnitt. Wenn eine Verteilung jedoch dicke Enden (Fat Tails) hat, wird der Effekt des Entfernens der höchsten und niedrigsten Werte in der Verteilung nur geringen Einfluss haben, da die Verteilungszahlen eine hohe Variabilität aufweisen.
Ein großer Nachteil von Winsorized Means ist, dass sie natürlicherweise eine gewisse Verzerrung in den Datensatz einführen. Durch die Reduzierung des Einflusses von Ausreißern wird die Analyse für eine bessere Analyse modifiziert, aber es werden auch Informationen über die zugrunde liegenden Daten entfernt.
Vorteile der Verwendung des Winsorized Mean in der statistischen Analyse
Der Winsorized Mean ist in bestimmten Situationen am besten geeignet. Nachfolgend listen wir allgemeine Fälle auf und geben im nächsten Abschnitt konkrete Beispiele. Verwenden Sie den Winsorized Mean, wenn es gibt:
Ausreißer im Datensatz. Die Verwendung des herkömmlichen arithmetischen Mittels könnte falsche Ergebnisse liefern, wenn Ihr Datensatz Ausreißer oder Extremwerte enthält, die erheblich von den anderen Datenpunkten abweichen. Der Winsorized Mean bietet eine genauere Darstellung des zentralen Trends und reduziert den Einfluss dieser Ausreißer.
Schiefe Verteilungen. Der Winsorized Mean ist hilfreich für Datensätze mit schiefen Verteilungen, die oft Extremwerte und lange Enden aufweisen. Um die Schiefe zu reduzieren und eine zuverlässigere Schätzung der zentralen Tendenz zu erhalten, wird Winsorizing verwendet.
Daten mit Messfehlern. Messfehler können Ausreißer verursachen, wenn sie in den Daten vorhanden sind. Diese Messfehler können durch die Verwendung des Winsorized Mean verringert werden.
Vorübergehende Wertschwankungen. Der Winsorized Mean kann in Situationen hilfreich sein, in denen kurzzeitige Schwankungen in den Daten zu extremen Zahlen führen könnten, da er gegenüber diesen Schwankungen resistent ist. Im Laufe der Zeit wird der Winsorized Mean zuverlässiger und stabiler, indem er diese Ausreißer ersetzt.
Begrenzte Stichprobengröße: Wenn es wenige Datenpunkte und eine kleine Stichprobengröße gibt, kann der Einfluss von Ausreißern auf den konventionellen Mittelwert größer sein. Unter diesen Umständen kann der Winsorized Mean eine genauere Schätzung der zentralen Tendenz bieten.
Auswahl des richtigen Winsorization-Levels für genaue Ergebnisse
Das Winsorization-Level ist entscheidend für die effektive Nutzung des Winsorized Mean. Das Winsorization-Level bestimmt den Prozentsatz der Extremwerte, die durch weniger extreme ersetzt werden. Um das geeignete Winsorization-Level zu bestimmen, sollten Sie Datenexploration, Domänenwissen, Sensitivitätsanalysen und die Konsultation von Experten in Betracht ziehen, die möglicherweise besser wissen, wie Extremwerte aussehen können.
Bei der Festlegung des Winsorization-Levels hilft das Verständnis von Ausreißern und ihren Ursachen, das richtige Level zu bestimmen. Ausreißer können die statistische Analyse beeinflussen, daher kann ein höheres Winsorization-Level vorteilhaft sein, wenn sie die Ergebnisse übermäßig beeinflussen. Ein niedrigeres Level kann jedoch angemessener sein, wenn das Ziel darin besteht, einige der ursprünglichen Eigenschaften der Daten zu bewahren. Bei der Wahl des Levels sollten Sie abwägen, wie wichtig Ihnen die Erhaltung der ursprünglichen Datenzusammensetzung ist.
In vielen Fällen ist Domänenwissen über die Daten unerlässlich für die Festlegung des Winsorization-Levels. Betrachten Sie einen beliebigen Datensatz und wie der typische Wertebereich aussehen würde. Ohne historisches, implizites Wissen über die Branche wäre es viel schwieriger, fehlerhafte Daten zu identifizieren. In einigen Fällen ist Experimentieren entscheidend, um zu beobachten, wie sich der Winsorized Mean mit variierenden Stufen verändert.
Anwendungen des Winsorized Mean in der Praxis
Genauer gesagt gibt es eine Reihe von Situationen oder Branchen, in denen der Winsorized Mean sinnvoller ist als andere Messformen. Diese realen Situationen können die unten aufgeführten Kategorien umfassen, sind aber nicht darauf beschränkt.
Finanzen/Investitionen
Marktvolatilität kann einen erheblichen Einfluss auf Finanzdaten haben. Aktienkurse, Vermögensrenditen und andere Finanzindikatoren können in der Welt der Finanzen und Investitionen extreme Niveaus aufweisen. Die Auswirkungen starker Preisvolatilität und Ausreißer können verringert werden, wenn Finanzdatenschätzungen unter Verwendung des Winsorized Mean berechnet werden.
Gehaltsabrechnung/Gehälter
Verteilungen von Gehältern oder Löhnen innerhalb von Unternehmen können gelegentlich stark verzerrt sein. Dies gilt insbesondere für Sektoren mit einer erheblichen Einkommenslücke oder Sektoren, die diejenigen, die lange in der Branche tätig sind, materiell belohnen oder diejenigen, die gerade ihre Karriere beginnen, 'bestrafen'. Der Winsorized Mean minimiert den Einfluss extremer Einkommen und bietet ein klareres Bild des typischen Gehaltsbereichs.
Gesundheitswesen
Aufgrund seltener medizinischer Erkrankungen oder extremer Messungen können medizinische Daten Ausreißer enthalten. Gesundheitsbezogene Indikatoren wie Blutdruck, Cholesterinwerte oder Genesungsdauern von Patienten können besser verstanden werden, wenn Extreme entfernt werden. Zum Beispiel sind Durchschnittswerte genauer, wenn sie nicht durch extrem hohe oder niedrige medizinische Messwerte verzerrt werden.
BildungAufgrund einer Vielzahl von Variablen können einige Kinder ungewöhnlich hohe oder niedrige Testergebnisse erzielen. Es kann nicht so nützlich sein, diese abnormalen Testergebnisse bei der Bewertung der Leistung einer bestimmten Kohorte einzubeziehen; daher kann die durchschnittliche Bewertung einer Beurteilung unter Verwendung des Winsorized Mean berechnet werden, um negative (oder positive) Auswirkungen zu entfernen, die ein Schüler bei der Bewertung der Wahrnehmung eines bestimmten Lehrers oder Kurses haben könnte.
Kundenzufriedenheit
In ähnlicher Weise können bei der Bewertung der Kundenzufriedenheit Ausreißer auftreten, weil ein winziger Prozentsatz der Verbraucher extrem gute oder negative Kommentare abgegeben hat. Im obigen Beispiel einer Klasse könnte ein einzelner unzufriedener Student die Kursbewertung herunterziehen. Der Winsorized Mean kann helfen, den Einfluss dieser extremen Bewertungen zu reduzieren und ein realistischeres Bild der Gesamtzufriedenheit zu zeichnen.
Umweltdaten
Da scheinbar seltenere Ereignisse oder extreme Wetterbedingungen auftreten, kann es Situationen geben, in denen Umweltdaten ohne diese Extreme nützlich sind. Betrachten Sie zum Beispiel ein Maß für die durchschnittliche Luftqualität oder die Menge der Wasserverschmutzung. Abnormal hohe oder niedrige Kontaminationswerte in beiden Kontexten könnten Entscheidungsträger in die Irre führen, wenn es darum geht, die durchschnittliche tägliche Situation zu verstehen; beispielsweise könnten umweltökonomische Ressourcen falsch zugewiesen werden.
Winsorized Mean in der Praxis: Beispiele und Berechnungen
Berechnen wir den Winsorized Mean für diesen Datensatz: 1, 5, 7, 8, 9, 10, 34. In diesem Beispiel nehmen wir an, dass der Winsorized Mean erster Ordnung ist, bei dem wir die kleinsten und größten Werte durch ihre nächstgelegenen Beobachtungen ersetzen.
Der Datensatz sieht nun wie folgt aus: 5, 5, 7, 8, 9, 10, 10. Die Berechnung des arithmetischen Mittels des neuen Satzes ergibt einen Winsorized Mean von 7,7, also (5 + 5 + 7 + 8 + 9 + 10 + 10) geteilt durch 7. Das arithmetische Mittel wäre 10,6 gewesen, höher als der Winsorized Mean, der die Auswirkungen der 34 als Ausreißer reduziert.
Oder betrachten Sie einen 20%igen Winsorized Mean, der die oberen 10% und unteren 10% nimmt und sie durch ihren nächstgelegenen Wert ersetzt. Wir werden den folgenden Datensatz winsorisieren: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Die beiden kleinsten und beiden größten Datenpunkte – 20% der 20 Datenpunkte – werden durch ihren nächstgelegenen Wert ersetzt. Somit sieht der neue Datensatz wie folgt aus: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Der Winsorized Mean beträgt 33,9, also die Summe der Daten (678) geteilt durch die Gesamtzahl der Datenpunkte (20).
Vergleich des Winsorized Mean mit anderen statistischen Maßen
Es gibt mehrere andere gebräuchliche Formen des 'Mittelwerts', die sich jeweils geringfügig vom Winsorized Mean unterscheiden. Es gibt auch andere Maße wie den Median, die vergleichbare, aber unterschiedliche Informationen liefern. Im Allgemeinen ist der Winsorized Mean so konzipiert, dass er widerstandsfähiger gegen Ausreißer ist als andere Arten von Mittelwerten. Diese anderen Messarten können umfassen:
Traditionelles/arithmetisches Mittel: Das traditionelle Mittel, auch als arithmetisches Mittel bekannt, wird berechnet, indem alle Datenpunkte eines Datensatzes summiert und durch die Anzahl der Datenpunkte geteilt werden. Es ist empfindlich gegenüber Extremwerten und kann durch Ausreißer erheblich beeinflusst werden.
Trimmed Mean: Der Trimmed Mean ist eine weitere Art von robustem Mittelwert, bei dem ein bestimmter Prozentsatz der Extremwerte von beiden Enden entfernt wird. Diese Enden können als oberes und unteres Ende der Datenverteilung bezeichnet werden. Der Trimmed Mean behält einen bestimmten Teil der zentralen Werte der Daten und verwirft die Extremwerte, was ihn widerstandsfähiger gegen den Einfluss von Ausreißern macht als das arithmetische Mittel.
Median: Der Median ist überhaupt keine Mittelwertberechnung; er repräsentiert stattdessen den mittleren Wert eines Datensatzes, wenn dieser in aufsteigender oder absteigender Reihenfolge angeordnet ist. Im Gegensatz zum traditionellen Mittelwert wird der Median nicht durch Extremwerte beeinflusst, da er nur den/die zentralen Wert(e) im Datensatz berücksichtigt.
Kann der Winsorized Mean mehrere Ausreißer verarbeiten?
Ja, der Winsorized Mean kann mehrere Ausreißer im Datensatz verarbeiten. Er ersetzt effektiv den angegebenen Prozentsatz der Extremwerte, unabhängig von der Anzahl der vorhandenen Ausreißer. Durch das Ersetzen mehrerer Ausreißer durch weniger extreme Werte bleibt der Winsorized Mean weniger empfindlich gegenüber dem Einfluss dieser Ausreißer.
Kann der Winsorized Mean mit nicht-numerischen Daten verwendet werden?
Eigentlich nicht. Der Winsorized Mean ist in erster Linie für numerische Daten konzipiert, da er das Ersetzen numerischer Ausreißer durch andere numerische Werte beinhaltet. Für nicht-numerische Daten wie kategoriale Variablen oder Textdaten können andere robuste statistische Maße oder Vorverarbeitungstechniken besser geeignet sein.
Bewahrt der Winsorized Mean die Datenvariabilität?
Der Winsorized Mean behält mehr Datenvariabilität als der Trimmed Mean, da er nur die Extremwerte durch Werte ersetzt, die näher am zentralen Teil des Datensatzes liegen. Daher bewahrt er mehr von der ursprünglichen Spannweite und Variabilität der Daten, was ihn in Fällen, in denen die Aufrechterhaltung der Variabilität wesentlich ist, zu einer wünschenswerten Wahl macht.
Wie wirkt sich der Winsorized Mean auf Hypothesentests aus?
Der Winsorized Mean kann die Ergebnisse von Hypothesentests beeinflussen, indem er die Auswirkungen von Extremwerten auf statistische Tests reduziert. In Fällen, in denen Ausreißer zu irrigen Schlussfolgerungen führen könnten, kann der Winsorized Mean zuverlässigere Testergebnisse liefern, was ihn zu einem nützlichen Werkzeug für Hypothesentests mit nicht-normalen oder schiefen Daten macht.