Statistiken

Statistik: Definition, Arten und Bedeutung

Wesentliche Erkenntnisse

Statistik beinhaltet die Berechnung mathematischer Wahrscheinlichkeiten auf Basis von Daten, die aus einer Stichprobengruppe gesammelt wurden.
Die beiden Hauptbereiche der Statistik sind die deskriptive und die inferentielle Statistik.
Die Arbeit von Statistikern wird in praktisch allen wissenschaftlichen Disziplinen sowie in den Bereichen Finanzen, Medizin, Geisteswissenschaften, Regierung und Fertigung eingesetzt.

Was ist Statistik?

Statistik ist ein Zweig der angewandten Mathematik, der die Erhebung, Beschreibung, Analyse und Interpretation von Daten umfasst, die aus einer Stichprobe einer größeren Population gewonnen werden. Statistische Stichproben werden in der Medizin, im Finanzwesen, im Marketing und in vielen anderen Bereichen eingesetzt, um das Verständnis zu verbessern und die Entscheidungsfindung zu unterstützen.

Die mathematischen Theorien hinter der Statistik stützen sich stark auf Differential- und Integralrechnung, lineare Algebra und Wahrscheinlichkeitstheorie.

Dennis Madamba / Investopedia

Statistik verstehen

Statistiken werden in praktisch allen wissenschaftlichen Disziplinen wie den Natur- und Sozialwissenschaften sowie in Wirtschaft, Medizin, Geisteswissenschaften, Regierung und Fertigung eingesetzt. Statistik ist ein Zweig der angewandten Mathematik, einschließlich Analysis und linearer Algebra, der aus der Anwendung mathematischer Werkzeuge auf die Wahrscheinlichkeitstheorie entstanden ist.

Es ist die Idee, dass wir die Eigenschaften großer Mengen von Objekten oder Ereignissen (einer Population) lernen können, indem wir die Merkmale einer kleineren Anzahl ähnlicher Objekte oder Ereignisse (einer Stichprobe) untersuchen. Die Erhebung umfassender Daten über eine gesamte Population ist in vielen Fällen zu kostspielig, schwierig oder unmöglich, daher beginnt die Statistik mit einer Stichprobe, die bequem oder kostengünstig beobachtet werden kann.

Statistiker messen und sammeln Daten über die Individuen oder Elemente einer Stichprobe und analysieren diese Daten, um deskriptive Statistiken zu erstellen. Sie können dann diese beobachteten Merkmale der Stichprobendaten nutzen, um Rückschlüsse oder fundierte Vermutungen über die ungemessenen Merkmale der breiteren Population zu ziehen. Diese unbeobachteten Populationsmerkmale werden als Parameter bezeichnet.

Kurzer Fakt

Die Statistik reicht Jahrhunderte zurück. Eine frühe Aufzeichnung der Korrespondenz zwischen den französischen Mathematikern Pierre de Fermat und Blaise Pascal im Jahr 1654 wird oft als frühes Beispiel für statistische Wahrscheinlichkeitsanalyse angeführt.1

Deskriptive und inferentielle Statistik

Die beiden Hauptbereiche der Statistik sind die deskriptive Statistik und die inferentielle Statistik. Die deskriptive Statistik beschreibt die Eigenschaften von Stichproben- und Populationsdaten. Die inferentielle Statistik verwendet diese Eigenschaften, um Hypothesen zu testen und Schlussfolgerungen zu ziehen.

Deskriptive Statistiken umfassen Mittelwert oder Durchschnitt, Varianz, Schiefe und Kurtosis. Inferentielle Statistiken umfassen lineare Regressionsanalyse, Varianzanalyse oder ANOVA, Logit/Probit-Modelle und Nullhypothesentests.

Deskriptive Statistik

Die deskriptive Statistik konzentriert sich hauptsächlich auf die zentrale Tendenz, Variabilität und Verteilung von Stichprobendaten. Die zentrale Tendenz bezieht sich auf die Schätzung der Merkmale eines typischen Elements einer Stichprobe oder Population. Sie umfasst deskriptive Statistiken wie Mittelwert, Median und Modus.

Variabilität bezieht sich auf eine Reihe von Statistiken, die zeigen, wie groß der Unterschied zwischen den Elementen einer Stichprobe oder Population hinsichtlich der gemessenen Merkmale ist. Sie umfasst Metriken wie Spannweite, Varianz und Standardabweichung.

Die Verteilung bezieht sich auf die allgemeine „Form“ der Daten. Dies kann in einer Grafik wie einem Histogramm oder einem Punktdiagramm dargestellt werden und umfasst Eigenschaften wie die Wahrscheinlichkeitsverteilungsfunktion, Schiefe und Kurtosis.

Deskriptive Statistiken können auch Unterschiede zwischen beobachteten Merkmalen der Elemente eines Datensatzes beschreiben. Sie können uns helfen, die kollektiven Eigenschaften der Elemente einer Datenstichprobe zu verstehen und bilden die Grundlage für das Testen von Hypothesen und das Treffen von Vorhersagen mittels inferentieller Statistik.

Inferentielle Statistik

Die inferentielle Statistik ist ein von Statistikern verwendetes Werkzeug, um Schlussfolgerungen über die Merkmale einer Population zu ziehen. Sie wird aus den Merkmalen einer Stichprobe abgeleitet. Sie wird auch verwendet, um zu bestimmen, wie sicher sich der Statistiker der Zuverlässigkeit dieser Schlussfolgerungen sein kann. Statistiker können die Wahrscheinlichkeit berechnen, dass Statistiken ein genaues Bild der entsprechenden Parameter der gesamten Population liefern, aus der die Stichprobe gezogen wird, basierend auf Stichprobengröße und -verteilung.

Inferentielle Statistiken werden verwendet, um Verallgemeinerungen über große Gruppen zu treffen, wie z. B. die Schätzung der durchschnittlichen Nachfrage nach einem Produkt durch die Befragung der Kaufgewohnheiten einer Stichprobe von Verbrauchern oder den Versuch, zukünftige Ereignisse vorherzusagen. Dies könnte die Prognose der zukünftigen Rendite eines Wertpapiers oder einer Anlageklasse auf der Grundlage von Renditen in einem Stichprobenzeitraum bedeuten.

Die Regressionsanalyse ist eine weit verbreitete Technik der statistischen Inferenz. Sie wird verwendet, um die Stärke und Art der Beziehung zwischen einer abhängigen Variable und einer oder mehreren erklärenden oder unabhängigen Variablen zu bestimmen. Die Ausgabe eines Regressionsmodells wird oft auf statistische Signifikanz analysiert. Ein Ergebnis aus durch Tests oder Experimente gewonnenen Erkenntnissen ist wahrscheinlich nicht zufällig oder durch Zufall aufgetreten.

Statistische Signifikanz deutet darauf hin, dass die Ergebnisse auf eine bestimmte, durch die Daten erklärte Ursache zurückzuführen sind.

Wichtig

Statistische Signifikanz zu haben, ist wichtig für akademische Disziplinen oder Praktiker, die stark auf die Analyse von Daten und Forschung angewiesen sind.

Mittelwert, Median und Modus

Die Begriffe „Mittelwert“, „Median“ und „Modus“ fallen unter den Oberbegriff der zentralen Tendenz. Sie beschreiben ein Element, das in einer bestimmten Stichprobengruppe typisch ist. Sie können den Mittelwert ermitteln, indem Sie die Zahlen in der Gruppe addieren und das Ergebnis durch die Anzahl der Beobachtungen im Datensatz teilen.

Die mittlere Zahl in der Menge ist der Median. Die Hälfte aller enthaltenen Zahlen ist höher als der Median und die Hälfte ist niedriger. Der mediane Hauswert in einer Nachbarschaft wäre 350.000 $, wenn dort fünf Häuser stünden, die mit 500.000 $, 400.000 $, 350.000 $, 325.000 $ und 300.000 $ bewertet wären. Zwei Werte sind höher und zwei sind niedriger.

Der Modus identifiziert die Zahl, die zwischen dem höchsten und dem niedrigsten Wert liegt. Sie tritt am häufigsten im Datensatz auf.

Statistische Daten verstehen

Die Wurzel der Statistik wird durch Variablen angetrieben. Eine Variable ist ein zählbarer Datensatz, der ein Merkmal oder Attribut eines Elements kennzeichnet. Ein Auto kann Variablen wie Marke, Modell, Baujahr, Kilometerstand, Farbe oder Zustand haben. Die Statistik ermöglicht es uns, Trends und Ergebnisse besser zu verstehen, indem wir die Variablen über einen Datensatz hinweg kombinieren, wie z. B. die Farben aller Autos auf einem Parkplatz.

Es gibt zwei Arten von Variablen.

Qualitative Variablen

Qualitative Variablen sind spezifische Attribute, die oft nicht numerisch sind. Beispiele für qualitative Variablen in der Statistik sind Geschlecht, Augenfarbe oder Geburtsstadt. Qualitative Daten werden am häufigsten verwendet, um zu bestimmen, welcher Prozentsatz eines Ergebnisses für eine bestimmte qualitative Variable auftritt. Qualitative Variablen sind kategorialer Natur, werden aber oft mit numerischen Zusammenfassungen wie Prozentsätzen und Häufigkeitszählungen analysiert.

Quantitative Variablen

Die zweite Art von Variablen in der Statistik sind quantitative Variablen. Diese Variablen werden numerisch gemessen und stellen Größen dar, die sinnvoll verglichen und analysiert werden können. Diese Informationen basieren auf Zahlen. Die gefahrenen Kilometer eines Autos ist eine quantitative Variable, aber die Zahl 60.000 hat keinen Wert, es sei denn, es ist klar, dass es sich um die Gesamtkilometer handelt.

Quantitative Variablen können weiter in zwei Kategorien unterteilt werden. Diskrete Variablen haben in der Statistik Einschränkungen und deuten darauf hin, dass es Lücken zwischen potenziellen diskreten Variablenwerten gibt. Die Anzahl der in einem Fußballspiel erzielten Punkte ist eine diskrete Variable, da es keine Dezimalstellen geben kann und ein Team nicht nur einen Punkt erzielen kann.

Die Statistik verwendet auch kontinuierliche quantitative Variablen. Diese Werte verlaufen entlang einer Skala. Diskrete Werte haben Einschränkungen, aber kontinuierliche Variablen werden oft in Dezimalzahlen gemessen. Kontinuierliche Variablen können mit immer präziseren Dezimalwerten gemessen werden.

Statistische Messniveaus

Nach der Analyse von Variablen und Ergebnissen ergeben sich mehrere Messniveaus. Die Statistik kann Ergebnisse auf vier Arten quantifizieren.

Nominalskala

Bei dieser Messung gibt es keinen numerischen oder quantitativen Wert und die Eigenschaften werden nicht eingestuft. Nominalskalierte Messungen sind stattdessen einfach Bezeichnungen oder Kategorien, die anderen Variablen zugeordnet werden. Am einfachsten ist es, sich nominalskalierte Messungen als nicht-numerische Fakten über eine Variable vorzustellen.

Beispiel: Anlagekontotyp (Roth IRA, Traditional IRA, 401(k), Brokerage-Konto)

Ordinalskala

Ergebnisse können in eine Reihenfolge gebracht werden, aber die Unterschiede zwischen den Werten sind nicht messbar oder gleich. Folglich können Ordinaldaten eingestuft werden, aber mathematische Operationen wie Addition oder Subtraktion sind nicht sinnvoll.

Beispiel: Olympische Medaillenplatzierungen (Gold, Silber, Bronze)

Intervallskala

Bei dieser Messung können Ergebnisse in eine Reihenfolge gebracht werden, aber Unterschiede zwischen Datenwerten können nun eine Bedeutung haben. Zwei Datenpunkte werden oft verwendet, um den Zeitablauf oder sich ändernde Bedingungen innerhalb eines Datensatzes zu vergleichen. Es gibt oft keinen „Startpunkt“ für die Spanne der Datenwerte. Kalenderdaten oder Temperaturen haben möglicherweise keinen aussagekräftigen intrinsischen Nullwert.

Beispiel: Die Uhrzeit (z. B. 14:00 Uhr, 15:00 Uhr oder 16:00 Uhr) ist eine Intervallskalenmessung, da die Unterschiede zwischen den Zeiten konsistent und sinnvoll sind. 12:00 Uhr ist jedoch nicht „Nullzeit“.

Verhältnisskala

Bei dieser Messung können Ergebnisse in eine Reihenfolge gebracht werden und Unterschiede zwischen Datenwerten haben nun eine Bedeutung. Es gibt jedoch einen Startpunkt oder „Nullwert“, der verwendet werden kann, um einem statistischen Wert einen weiteren Wert zu verleihen. Das Verhältnis zwischen Datenwerten hat eine Bedeutung, einschließlich des Abstands von Null.

Beispiel: Ein Jahreseinkommen von 100.000 $ ist doppelt so hoch wie 50.000 $, und 0 $ bedeutet kein Einkommen.

Statistische Stichprobenverfahren

Es ist oft nicht möglich, auf Daten von jedem Datenpunkt innerhalb einer Population zuzugreifen, um statistische Informationen zu sammeln. Die Statistik verlässt sich stattdessen auf verschiedene Stichprobenverfahren, um eine repräsentative Teilmenge der Population zu erstellen, die leichter zu analysieren ist. Es gibt mehrere Hauptarten der Stichprobenziehung in der Statistik.

Einfache Zufallsstichprobe

Bei der einfachen Zufallsstichprobe hat jedes Mitglied der Population die gleiche Chance, für die Analyse ausgewählt zu werden. Die gesamte Population wird als Grundlage für die Stichprobe verwendet, und jeder auf Zufall basierende Zufallsgenerator kann die Stichprobenelemente auswählen. Vielleicht werden 100 Personen aufgereiht und 10 werden zufällig ausgewählt.

Systematische Stichprobe

Die systematische Stichprobe erfordert ebenfalls eine Zufallsstichprobe, aber ihre Technik ist leicht modifiziert, um die Durchführung zu erleichtern.

Eine einzelne Zufallszahl wird generiert, um den Startpunkt zu bestimmen, und dann werden Personen in einem bestimmten regelmäßigen Intervall ausgewählt, bis die Stichprobengröße erreicht ist. Es wird jede neunte Person ausgewählt, bis 10 Stichprobenelemente ausgewählt sind, wenn 100 Personen aufgereiht und nummeriert sind und der zufällige Startpunkt die siebte Person ist. Es würde so aussehen: 7., 16., 25.

Geschichtete Stichprobe

Die geschichtete Stichprobe erfordert mehr Kontrolle über Ihre Stichprobe. Die Population wird basierend auf ähnlichen Merkmalen in Untergruppen eingeteilt. Sie würden dann berechnen, wie viele Personen aus jeder Untergruppe die gesamte Population repräsentieren würden. Vielleicht werden 100 Personen nach Geschlecht und Rasse gruppiert. Eine Stichprobe aus jeder Untergruppe wird dann im Verhältnis dazu genommen, wie repräsentativ diese Untergruppe für die Population ist.

Cluster-Stichprobenverfahren

Cluster-Sampling erfordert ebenfalls Untergruppen, aber jede Untergruppe sollte repräsentativ für die Grundgesamtheit sein. Die gesamte Untergruppe wird zufällig ausgewählt, anstatt zufällig Individuen innerhalb einer Untergruppe auszuwählen.

Kurzer Fakt

Statistiken werden oft zitiert, wenn Auszeichnungen wie der Most Valuable Player der Major League Baseball vergeben werden.2 Statistiken können Schlagdurchschnitt, Anzahl der geschlagenen Home Runs und gestohlene Bases umfassen.

Anwendungen der Statistik

Statistiken sind in den Bereichen Finanzen, Investitionen, Wirtschaft und vielen anderen Sektoren weit verbreitet. Ein Großteil der Informationen, die Sie sehen und die Daten, die Sie erhalten, stammen aus Statistiken, die in allen Bereichen eines Unternehmens verwendet werden.

Statistiken im Investmentbereich umfassen das durchschnittliche Handelsvolumen, das 52-Wochen-Tief, das 52-Wochen-Hoch, Beta und die Korrelation zwischen Anlageklassen oder Wertpapieren.

Statistiken in der Volkswirtschaftslehre umfassen das Bruttoinlandsprodukt (GDP), Arbeitslosigkeit, Verbraucherpreise, Inflation und andere Kennzahlen zum Wirtschaftswachstum.

Statistiken im Marketing umfassen Konversionsraten, Klickraten, Suchvolumen und Social-Media-Kennzahlen.

Statistiken in der Buchhaltung umfassen Liquiditäts-, Solvenz- und Rentabilitätskennzahlen im Zeitverlauf.

Statistiken in der Informationstechnologie umfassen Bandbreite, Netzwerkkapazitäten und Hardware-Logistik.

Statistiken im Personalwesen umfassen Mitarbeiterfluktuation, Mitarbeiterzufriedenheit und durchschnittliche Vergütung im Vergleich zum Markt.

Erklär es mir, als wäre ich fünf

Statistiken sind die Mathematik, die Daten verständlich macht.

Anstatt alles zu messen oder zu beobachten, untersuchen wir eine kleinere Stichprobe und nutzen sie, um abzuschätzen, was in der größeren Grundgesamtheit passiert.

Kurz gesagt, Statistiken helfen uns, Fragen zu beantworten wie:

Was ist typisch?

Wie viel Variation gibt es?

Ist dieses Ergebnis wahrscheinlich auf Zufall zurückzuführen?

Was könnte als nächstes passieren?

Warum ist Statistik wichtig?

Statistiken werden verwendet, um Forschung zu betreiben, Ergebnisse zu bewerten, kritisches Denken zu entwickeln und fundierte Entscheidungen über einen Datensatz zu treffen. Statistiken können in fast jedem Fachgebiet eingesetzt werden, um zu untersuchen, warum Dinge passieren, wann sie auftreten und ob ein erneutes Auftreten vorhersagbar ist.

Was ist der Unterschied zwischen deskriptiver und induktiver Statistik?

Deskriptive Statistiken werden verwendet, um die Merkmale einer Stichprobe oder eines Datensatzes zu beschreiben oder zusammenzufassen, wie den Mittelwert, die Standardabweichung oder die Häufigkeit einer Variablen. Induktive Statistiken verwenden eine Reihe von Techniken, um Variablen in einem Datensatz miteinander in Beziehung zu setzen. Ein Beispiel wäre die Verwendung von Korrelations- oder Regressionsanalysen. Diese können dann verwendet werden, um Beziehungen zu identifizieren und Vorhersagen zu treffen, wobei die Herstellung von Kausalität in der Regel kontrollierte Studiendesigns erfordert.

Wer verwendet Statistiken?

Statistiken werden immer dann verwendet, wenn Daten in einer Vielzahl von Berufen gesammelt und analysiert werden. Dazu gehören Regierungsbehörden, akademische Forschung und Investitionsanalyse.

Wie werden Statistiken in der Volkswirtschaftslehre und im Finanzwesen eingesetzt?

Ökonomen sammeln und betrachten alle Arten von Daten, von Verbraucherausgaben und Baubeginn bis hin zu Inflation und BIP-Wachstum. Analysten und Investoren sammeln Daten über Unternehmen, Branchen, Stimmungen und Marktdaten zu Preis und Volumen. Die Verwendung induktiver Statistiken in diesen Bereichen wird als Ökonometrie bezeichnet.

Mehrere wichtige Finanzmodelle, darunter das Capital Asset Pricing Model (CAPM), die moderne Portfoliotheorie (MPT) und das Black-Scholes-Optionspreismodell, stützen sich auf statistische Inferenz.