Deskriptive_Statistik

Deskriptive Statistik: Definition, Übersicht, Typen und Beispiele

Wichtige Erkenntnisse

Deskriptive Statistiken fassen die Merkmale eines Datensatzes zusammen oder beschreiben sie.
Deskriptive Statistiken bestehen aus drei grundlegenden Kategorien von Maßen: Maße der zentralen Tendenz, Maße der Variabilität (oder Streuung) und Häufigkeitsverteilung.
Maße der zentralen Tendenz beschreiben das Zentrum des Datensatzes (Mittelwert, Median, Modus).
Maße der Variabilität beschreiben die Streuung des Datensatzes (Varianz, Standardabweichung).
Maße der Häufigkeitsverteilung beschreiben das Auftreten von Daten innerhalb des Datensatzes (Anzahl).

Was sind deskriptive Statistiken?

Deskriptive Statistiken sind kurze Zusammenfassungen eines Datensatzes, sei es eine Darstellung der gesamten Bevölkerung oder einer Stichprobe der Bevölkerung, und sie versuchen nicht, Vorhersagen zu treffen oder Schlussfolgerungen über die Daten hinaus zu ziehen. Deskriptive Statistiken werden unterteilt in Maße der zentralen Tendenz und Maße der Variabilität (Streuung). Zu den Maßen der zentralen Tendenz gehören Mittelwert, Median und Modus, während zu den Maßen der Variabilität Standardabweichung, Varianz, Minimal- und Maximalwerte, Kurtosis und Schiefe gehören.

Jessica Olah / Investopedia

Deskriptive Statistiken verstehen

Deskriptive Statistiken helfen, die Merkmale eines bestimmten Datensatzes zu beschreiben und zu erklären, indem sie kurze Zusammenfassungen über die Stichprobe und Maße der Daten geben. Die am häufigsten verwendeten deskriptiven Statistiken sind Maße der Mitte. Zum Beispiel werden Mittelwert, Median und Modus, die auf fast allen Ebenen der Mathematik und Statistik verwendet werden, verwendet, um einen Datensatz zu beschreiben.

Der Mittelwert oder Durchschnitt wird berechnet, indem alle Zahlen im Datensatz addiert und dann durch die Anzahl der Zahlen im Satz geteilt werden. Der Modus eines Datensatzes ist der am häufigsten vorkommende Wert, und der Median ist der Wert in der Mitte des Datensatzes. Es ist die Zahl, die die höheren von den niedrigeren Zahlen in einem Datensatz trennt. Es gibt jedoch weniger verbreitete Arten von deskriptiven Statistiken, die dennoch sehr wichtig sind.1

Zum Beispiel beträgt die Summe des folgenden Datensatzes 20: (2, 2, 3, 5, 8). Der Mittelwert ist 4 (20/5). Der Modus ist 2. Der Median ist 3.

Menschen verwenden deskriptive Statistiken, um schwer verständliche quantitative Erkenntnisse aus einem großen Datensatz in mundgerechte Beschreibungen umzuwandeln.

Wichtig

In vielen Bereichen werden deskriptive Statistiken oft visuell mit Streudiagrammen, Histogrammen, Liniendiagrammen oder Stamm-Blatt-Darstellungen dargestellt.2

Arten deskriptiver Statistiken

Alle deskriptiven Statistiken sind entweder Maße der zentralen Tendenz oder Maße der Variabilität, auch bekannt als Streuungsmaße.

Zentrale Tendenz

Maße der zentralen Tendenz beschreiben das Zentrum eines Datensatzes. Sie messen, was typisch ist, und können je nach Schiefe der Werte durch den Mittelwert, den Modus oder den Median dargestellt werden. Die zentrale Tendenz hilft zu identifizieren, was in einem Datensatz typisch ist.

Maße der Variabilität

Maße der Variabilität (oder Streuungsmaße) helfen dabei zu analysieren, wie verteilt die Verteilung eines Datensatzes ist. Während die Maße der zentralen Tendenz einer Person beispielsweise den Durchschnitt eines Datensatzes geben können, beschreiben sie nicht, wie die Daten innerhalb des Satzes verteilt sind.

Während der Durchschnitt der Daten also 65 von 100 betragen mag, kann es dennoch Datenpunkte sowohl bei 1 als auch bei 100 geben. Maße der Variabilität helfen, dies zu kommunizieren, indem sie die Form und Streuung des Datensatzes beschreiben. Spannweite, Quartile, absolute Abweichung und Varianz sind alles Beispiele für Maße der Variabilität.3

Betrachten Sie den folgenden Datensatz: 5, 19, 24, 62, 91, 100. Die Spannweite dieses Datensatzes beträgt 95, berechnet durch Subtraktion der niedrigsten Zahl (5) von der höchsten (100).

Verteilung

Eine Häufigkeitsverteilung beschreibt, wie oft Werte in einem Datensatz vorkommen. Alternativ kann sie beschreiben, wie oft ein Datenpunkt nicht vorkommt. Betrachten Sie diesen Datensatz: männlich, männlich, weiblich, weiblich, weiblich, andere. Die Verteilung dieser Daten kann wie folgt klassifiziert werden:

Die Anzahl der Männer im Datensatz beträgt 2.

Die Anzahl der Frauen im Datensatz beträgt 3.

Die Anzahl der Personen, die sich als andere identifizieren, beträgt 1.

Die Anzahl der Nicht-Männer beträgt 4.

Univariat vs. Bivariat

In der deskriptiven Statistik analysiert univariate Daten nur eine Variable. Sie wird verwendet, um Merkmale eines einzelnen Merkmals zu identifizieren, und nicht, um Beziehungen oder Kausalitäten zu analysieren.

Stellen Sie sich zum Beispiel einen Raum voller Highschool-Schüler vor. Angenommen, Sie möchten das Durchschnittsalter der Personen im Raum ermitteln. Diese univariaten Daten hängen nur von einem Faktor ab: dem Alter jeder Person. Indem Sie diese eine Information von jeder Person sammeln und durch die Gesamtzahl der Personen teilen, können Sie das Durchschnittsalter bestimmen.

Bivariate Daten hingegen versuchen, zwei Variablen zu verknüpfen, indem sie nach Korrelation suchen. Es werden zwei Arten von Daten gesammelt, und die Beziehung zwischen den beiden Informationen wird gemeinsam analysiert.4 Da zwei Variablen analysiert werden, wird dieser Ansatz als bivariate Analyse bezeichnet. Wenn mehr als zwei Variablen analysiert werden, spricht man von multivariater Analyse.

Nehmen wir an, jeder Highschool-Schüler im obigen Beispiel macht einen College-Aufnahmetest, und wir möchten sehen, ob ältere Schüler besser abschneiden als jüngere. Zusätzlich zur Erfassung des Alters der Schüler müssen wir die Testergebnisse jedes Schülers ermitteln. Dann stellen wir mithilfe von Datenanalyse mathematisch oder grafisch dar, ob eine Beziehung zwischen dem Alter der Schüler und den Testergebnissen besteht.

Schnelle Tatsache

Die Erstellung und Berichterstattung von Finanzabschlüssen ist ein Beispiel für deskriptive Statistik. Die Analyse dieser Finanzinformationen, um Entscheidungen über die Zukunft zu treffen, ist inferentielle Statistik.

Deskriptive Statistiken und Visualisierungen

Ein wesentlicher Aspekt der deskriptiven Statistik ist die grafische Darstellung. Die effektive Visualisierung von Datenverteilungen kann äußerst wirkungsvoll sein, und dies geschieht auf verschiedene Weise.

Ein Histogramm ist wie ein Balkendiagramm für Zahlen. Es gruppiert Daten in Bereiche (sogenannte Bins) und verwendet Balken, um die Anzahl der Werte anzuzeigen, die in jeden Bereich fallen. Die Balkendarstellung macht es einfach, die Gesamtform der Daten zu erkennen und schnell festzustellen, ob die Werte in der Mitte gehäuft sind, verstreut oder zu einer Seite verzerrt sind.

Ein Boxplot (auch als Kastengrafik bekannt) bietet eine schnelle Momentaufnahme der Datenverteilung. Er zeigt den Median (den mittleren Wert), die Quartile (die die Daten in vier Teile teilen) und alle Ausreißer, die weit vom Rest entfernt sind. Boxplots sind besonders nützlich, wenn Sie mehrere Gruppen nebeneinander vergleichen möchten, um zu sehen, wie sich ihre Verteilungen unterscheiden.

Deskriptive Statistiken und Ausreißer

Immer wenn deskriptive Statistiken diskutiert werden, ist es wichtig, Ausreißer zu beachten. Ausreißer sind Datenpunkte, die sich erheblich von anderen Beobachtungen in einem Datensatz unterscheiden. Dies können Fehler, Anomalien oder seltene Ereignisse innerhalb der Daten sein.

Das Erkennen und Behandeln von Ausreißern ist ein Schritt in der deskriptiven Statistik, um eine genaue und zuverlässige Datenanalyse zu gewährleisten. Um Ausreißer zu identifizieren, können Sie grafische Techniken (wie Boxplots oder Streudiagramme) oder statistische Methoden (wie Z-Score oder die IQR-Methode) verwenden. Diese Ansätze helfen, Beobachtungen zu identifizieren, die wesentlich vom Gesamtmuster der Daten abweichen.

Das Vorhandensein von Ausreißern kann einen erheblichen Einfluss auf deskriptive Statistiken haben, Ergebnisse verzerren und die Interpretation von Daten beeinflussen. Ausreißer können Maße der zentralen Tendenz wie den Mittelwert unverhältnismäßig stark beeinflussen, indem sie ihn in Richtung ihrer Extremwerte ziehen. Zum Beispiel beträgt der Mittelwert des Datensatzes (1, 1, 1, 997) 250, obwohl dieser kaum repräsentativ für den Datensatz ist. Diese Verzerrung kann zu irreführenden Schlussfolgerungen über das typische Verhalten des Datensatzes führen.

Je nach Kontext können Ausreißer oft behandelt werden, indem man sie entfernt (wenn sie tatsächlich fehlerhaft oder irrelevant sind). Alternativ können Ausreißer wichtige Informationen enthalten und sollten aufgrund des Werts, den sie demonstrieren können, beibehalten werden. Wenn Sie Ihre Daten analysieren, überlegen Sie, welche Relevanz Ausreißer haben können und ob es sinnvoller ist, diese Datenpunkte einfach aus Ihren deskriptiven statistischen Berechnungen zu streichen.

Deskriptive Statistiken vs. Inferentielle Statistiken

Deskriptive Statistiken haben eine andere Funktion als inferentielle Statistiken, bei denen es sich um Datensätze handelt, die verwendet werden, um Entscheidungen zu treffen oder Merkmale von einem Datensatz auf einen anderen zu übertragen.

Stellen Sie sich ein weiteres Beispiel vor, bei dem ein Unternehmen scharfe Soße verkauft. Das Unternehmen sammelt Daten wie die Anzahl der Verkäufe, die durchschnittliche gekaufte Menge pro Transaktion und den durchschnittlichen Umsatz pro Wochentag. All diese Informationen sind deskriptiv, da sie eine Geschichte darüber erzählen, was tatsächlich in der Vergangenheit passiert ist. In diesem Fall werden sie nicht über den informativen Zweck hinaus verwendet.

Nehmen wir nun an, das Unternehmen möchte eine neue scharfe Soße auf den Markt bringen. Es sammelt die gleichen Verkaufsdaten wie oben, verwendet die Informationen jedoch, um Vorhersagen darüber zu treffen, wie hoch die Verkäufe der neuen scharfen Soße sein werden. Der Akt der Verwendung deskriptiver Statistiken und der Anwendung von Merkmalen auf einen anderen Datensatz macht den Datensatz zu inferentiellen Statistiken. Wir fassen nicht mehr nur Daten zusammen; wir verwenden sie, um vorherzusagen, was mit einem völlig anderen Datenbestand passieren wird (in diesem Fall das neue Produkt der scharfen Soße).

Erklärt, als wäre ich 5

Der Notendurchschnitt (Grade-Point Average, GPA) eines Schülers ist ein einfaches Beispiel für deskriptive Statistik. Er nimmt viele einzelne Noten und kombiniert sie zu einer einzigen Zahl, die die gesamte akademische Leistung zusammenfasst.

Was machen deskriptive Statistiken?

Deskriptive Statistiken sind ein Mittel, um Merkmale eines Datensatzes zu beschreiben, indem Zusammenfassungen der Datenstichproben erstellt werden. Zum Beispiel kann eine Volkszählung deskriptive Statistiken zum Verhältnis von Männern und Frauen in einer bestimmten Stadt enthalten.

Was sind Beispiele für deskriptive Statistiken?

Bei der Zusammenfassung einer Major League Baseball-Saison könnten deskriptive Statistiken beispielsweise die Schlagdurchschnitte der Teams, die Anzahl der pro Team zugelassenen Runs und die durchschnittlichen Siege pro Division umfassen.

Was ist der Hauptzweck deskriptiver Statistiken?

Der Hauptzweck deskriptiver Statistiken besteht darin, Informationen über einen Datensatz zu liefern. Im obigen Beispiel gibt es Dutzende von Baseballteams, Hunderte von Spielern und Tausende von Spielen. Deskriptive Statistiken fassen große Datenmengen in nützliche Informationshäppchen zusammen.

Welche Arten von deskriptiven Statistiken gibt es?

Die drei Haupttypen deskriptiver Statistiken sind Häufigkeitsverteilung, zentrale Tendenz und Variabilität eines Datensatzes. Die Häufigkeitsverteilung erfasst, wie oft Daten vorkommen, die zentrale Tendenz erfasst den Mittelpunkt der Verteilung der Daten und die Variabilität eines Datensatzes erfasst seinen Streuungsgrad.

Können deskriptive Statistiken verwendet werden, um Schlussfolgerungen oder Vorhersagen zu treffen?

Technisch gesehen dienen deskriptive Statistiken nur dazu, historische Datenattribute zu verstehen. Inferentielle Statistiken, ein separater Zweig der Statistik, werden verwendet, um zu verstehen, wie Variablen in einem Datensatz miteinander interagieren, und um möglicherweise vorherzusagen, was in der Zukunft passieren könnte.5