Varianz – Statistisches Streuungsmaß berechnen

Lesedauer: 6 Minuten
So hilfreich ist dieser Beitrag 0
Bewertung abgeben 0 Kundenbewertungen
Varianz-Definition

In vielen alltäglichen Situationen arbeiten wir mit Durchschnittsangaben, die als sogenannte „Erwartungswerte“1 fungieren. Interessant dabei sind vor allem Abweichungen vom Erwartungswert.

Du möchtest beispielsweise wissen, welche Abweichung vom Erwartungswert generell einzukalkulieren ist? Dann musst du dafür zunächst einmal die Varianz berechnen.

Varianz „einfach erklärt“

Die „Varianz“ ist ein Streuungsmaß der deskriptiven Statistik, das die durchschnittliche Verteilung bzw. Streuung der Daten um den Mittelwert verdeutlicht. Sie wird dementsprechend häufig verwendet und berechnet, um metrische Daten (z.B. numerische Werte/Zahlen) zu interpretieren.

Definition: Varianz

Die Varianz beschreibt die Verteilung bzw. Streuung von Beobachtungswerten um den Mittelwert aller Beobachtungen2.

Das Verb „variieren“ bietet hierfür eine gute Eselsbrücke: Dies bedeutet „abweichen“, „sich unterscheiden“ oder „sich ändern“.

Die Varianz zählt deshalb zu den sogenannten „Streuungsmaßen“3. Benötigt wird sie zur Einschätzung, wie weit die Messwerte eines Experiments vom Erwartungswert abweichen.

Beispiel:

Autos geben einen Spritverbrauch auf 100 Kilometer an, der durch entsprechende Fahrerfahrungen („Versuche“ oder „Experimente“ genannt) ermittelt wurde. Praktisch wissen wir aber auch, dass die konkreten Beobachtungen, die zur Ermittlung des Erwartungswertes führten, über und unter diesem lagen. Fährst du Auto, verbrauchst du mal mehr und mal weniger Sprit. Diese Abweichungen sind interessant.

Varianz berechnen

Wir unterscheiden die Varianz von der Grundgesamtheit bzw. der sogenannten Stichprobenvarianz4. Erstere nimmt ein gesamtes Bild in den Blick. Letztere betrachtet lediglich einen Ausschnitt.

Die Stichprobe macht oft mehr Sinn. Als Beispiel sei die tatsächlich geleistete Arbeitszeit von allen in einem Unternehmen Beschäftigten genannt. Durch Faktoren wie Teil- und Vollzeitbeschäftigungen weichen die individuellen Arbeitszeiten extrem von dem Durchschnittswert aller Arbeitnehmer ab. Teil- und Vollzeitbeschäftigungen machen es aber wenig sinnvoll, die Varianz von der Gesamtheit zu nehmen.

Ein effektiverer Vergleich dagegen ist die tatsächlich geleistete Arbeitszeit von Beschäftigen, deren Verträge identische Arbeitszeiten vorschreiben.

Formel zur Berechnung der Varianz von der Gesamtheit

V = 1/N x Summe aus N-1 x (Xi – arithmetisches Mittel)

Dabei ist N die Anzahl der Beobachtungswerte im Rahmen einer Stichprobe.

Xi ist der Beobachtungswert.

In fünf Schritten zur Stichprobenvarianz

Diese fünf Schritte sind notwendig, um eine Stichprobenvarianz zu ermitteln5:

  1. Berechnung des Mittelwertes der Beobachtungswerte.
  2. Berechnung der Abweichung vom Mittelwert (dieser wird von den Beobachtungswerten abgezogen).
  3. Quadriere die Ergebnisse. Dies ist notwendig, da diese nicht negativ sein dürfen.
  4. Summiere die quadrierten Abweichungen.
  5. Nimm die Anzahl der Beobachtungen und subtrahiere 1. Du teilst das Ergebnis aus dem vorherigen Schritt durch diese Zahl und erhältst die Stichprobenvarianz.

Beispiel: Berechnung einer Stichprobenvarianz

Kommen wir noch einmal auf den Benzinverbrauch zurück. Wir haben für fünf Messwerte auf 100 Kilometer gesammelt. Diese sollen sein: 5, 6, 4, 8 und 7 Liter.

  • Nun berechnen wir den Mittelwert: (5 + 6 + 4 + 8 + 7) : 5 (Anzahl der Beobachtungen) = 30 : 5 = 6. Unser Mittel- bzw. Erwartungswert anhand der Stichproben ist also ein Benzinverbrauch von sechs Litern auf 100 Kilometer.
  • Nun berechnen wir die Abweichungen:

5 – 6 = -1

6 – 6 = 0

4 – 6 = -2

8 – 6 = 2

7 – 6 = 1

  • Die quadrierten Abweichungen lauten 1 (-1 x -1), 0 (0 x 0), 4 (-2 x -2), 4 (2 x 2) und 1 (1 x 1).
  • Nun summieren wir die quadrierten Abweichungen: 1 + 0 + 4 + 4 + 1 = 10
  • Jetzt ziehen wir 1 von der Anzahl der Beobachtungen ab, um unseren Divisor für die Berechnung der Stichprobenvarianz zu erhalten: 5 – 1 = 4.
  • Für die finale Berechnung teilen wir nun die quadrierten Abweichungen durch 4: 10 : 4 = 2,25.

Unsere Stichprobenvarianz beträgt also 2,25.

Es sei daran erinnert, dass wir zwischenzeitlich quadriert haben. Wir haben deshalb noch nicht die Standardabweichung ermittelt, sondern einen Korridor um den Erwartungswert, um den sich die Ergebnisse streuen können.

Keiner der Beobachtungswerte ist mehr als 2 Liter vom Erwartungswert entfernt. Der Korridor von 2,25 stimmt also.

Standardabweichung durch die Varianz ermitteln

Um zur Standardabweichung zu gelangen, müssen wir die Quadrierung aufheben.

Hierfür ziehen wir die Wurzel aus der Varianz.

Beispiel:

Um auf das Beispiel aus dem vorherigen Abschnitt zurückkommen, bedeutet dies, wir müssen die Wurzel aus 2,25 ziehen. Das Ergebnis ist 1,5.

Die Standardabweichung ist entsprechend 1,5 Liter vom Erwartungswert von sechs Litern Benzinverbrauch.

So berechnest du die Varianz in Excel

Excel bietet zwei vorgegebene Formeln, um die Varianz und die Standardabweichung zu berechnen6. Um diese zu nutzen, müssen die Beobachtungswerte in eine Tabelle eingetragen werden.

Die Formel für die Varianz lautet schlicht: VARIANZ(A2:E2). Wer die Standardabweichung berechnen möchte, wählt STABW(A2:E2).

Beispiel:

Bleiben wir beim Beispiel des Spritverbrauchs, so befinden sich die Werte in den Spalten A2, B2, C2, D2 und E2. In Excel wird dies als A2:E2 ausgedrückt.

Häufig gestellte Fragen

Varianzen können nur für metrische Daten verwendet werden. Darunter sind numerische Werte (Zahlen) zu verstehen, die einem festen Intervall folgen.

Als Beispiel: Bei 1, 2 und 3 ist der Abstand zwischen den Werten stets gleich. Die Varianz ist stets als Maximalkorridor um den Erwartungswert zu interpretieren. Hier befinden sich alle gestreuten Ergebnisse.

Die Kovarianz beschreibt das Zusammenspiel von zwei zufällig gewählten Variablen. Was passiert mit der zweiten Unbekannten, wenn sich die erste ändert – und umgekehrt?

Um es am obigen Beispiel zu erklären: Wie verändert sich beispielsweise der Spritverbrauch bei einer höheren oder niedrigeren Geschwindigkeit.

Dieser Punkt bereitet häufig Verständnisprobleme. Bei einer Stichprobe wurde der Mittelwert erhoben. Ihr wurde also eine Information entzogen, weshalb ein Freiheitsgrad („Was kann N sein?“) weniger zur Verfügung steht: Es sind nicht mehr alle Einzelwerte für N frei wählbar. Denn N ergibt sich jetzt zwangsläufig aus dem Mittelwert und den N-1-Werten.

Wieder soll das obige Beispiel des Spritverbrauchs der Verdeutlichung helfen: Wir haben eine feste Zahl von Beobachtungswerten, nämlich 5. Wir haben die zugehörigen Messungen zu einem Mittelwert gemacht, nämlich 6. Wir haben deshalb einen fiktiven Wert für N ermittelt, der zufälligerweise unter den Beobachtungswerten sein kann, aber nicht muss. Es kann also sein (und ist ziemlich wahrscheinlich), dass wir durch den Mittelwert einen sechsten Beobachtungswert konstruieren, den es aber gar nicht gibt. Um dies auszuschließen, korrigieren wir durch N-1.

Eine Varianzanalyse ist die Bezeichnung für die Berechnung der Varianz sowie der Standardabweichung aus vorgegebenen Werten. Dieser Begriff beschreibt also den gesamten Vorgang, den wir hier erläutert haben.

Ein t-Test dient der Ermittlung, ob es einen signifikanten Unterschied zwischen den Mitteln zweier Versuchsgruppen gibt. Zusätzliche Proben können allerdings nicht hinzugefügt werden. Arbeitest du mit drei oder mehr Gruppen, ist die Varianzanalyse zu nutzen.

Quellen

1 Hochschule Karlsruhe: Eigenschaften des Erwartungswert-Operators. 2022 [online] https://www.eit.hs-karlsruhe.de/mesysto/teil-c-stochastische-signale/univariate-wahrscheinlichkeitstheorie/erwartungswerte-von-verteilungen/eigenschaften-des-erwartungswert-operators.html?type=1 (abgerufen am 18.01.2023)

2 Kloiber, Y.: Standardabweichung und Varianz mit Excel berechnen. 2020 [online] https://blog.hubspot.de/marketing/standardabweichung-excel (abgerufen am 18.01.2023)

3 DATAtab: Streuungsmaße. 2022 [online] https://datatab.de/tutorial/standardabweichung-varianz-spannweite (abgerufen am 18.01.2023)

4 Reinboth, C.: Grundlagen der Statistik: Dispersionsparameter – Varianz und Standardabweichung. 2016 [online] https://wissenschafts-thurm.de/grundlagen-der-statistik-dispersionsparameter-varianz-und-standardabweichung/ (abgerufen am 18.01.2023)

5 Math2Mind: Empirische Varianz – Stichprobenvarianz. 2022 [online] https://www.maths2mind.com/schluesselwoerter/empirische-varianz (abgerufen am 18.01.2023)

6 Moßmann, R.: Excel: Varianz und Standardabweichung berechnen. 2019 [online] https://praxistipps.chip.de/excel-varianz-und-standardabweichung-berechnen_28032 (abgerufen am 18.01.2023)