Die Kovarianz – Anwenden und verstehen

09.02.23 Zusammenhangsmaße Lesedauer: 7min

Wie gefällt dir dieser Beitrag?

0 Bewertungen


Kovarianz-Definition

Die Kovarianz beschreibt den linearen Zusammenhang von zwei Variablen. Sie tritt beispielsweise in der Stochastik und in der Physik auf. Es fällt vielen Lernenden schwer, die Kovarianz zu verstehen und anzuwenden. In der Regel sind es vor allem die Fachbegriffe, die dabei Probleme bereiten. Wir möchten dir helfen, dieses Problem zu lösen. 1

Die Kovarianz „einfach erklärt“

Ziel ist es, über die Kovarianz eine Aussage darüber treffen zu können, was mit der einen Variabel passiert, wenn sich die andere ändert. Ist die Kovarianz eine positive Zahl, steigt vermutlich eine Variable, wenn die andere es tut. Ist die Kovarianz negativ, gilt das Gegenteil. Die Kovarianz ist ein dimensionsloses Maß, somit nicht standardisiert und erlaubt keine Auskunft darüber, wie groß die Veränderung ist.

Definition: Kovarianz

Die offizielle Definition der Kovarianz ist ein schönes Beispiel für die obige Feststellung: Es handelt sich um ein Zusammenhangsmaß für einen monotonen Zusammenhang zweier zufälliger Variablen mit identischer Wahrscheinlichkeitsverteilung. Um es verständlicher zu machen, lohnt sich eine Übersetzung des Wortes. „Ko“ und „Varianz“ sind Lehnsbegriffe aus dem Lateinischen. „Ko“ bedeutet „Zusammen“ („Kooperation“ ist eine gute Gedankenbrücke) oder „mit“. „Varianz“ ist übersetzt eine „Streuung“, „Änderung“ oder „Abweichung“. Das gebräuchliche Verb „variieren“ kann dir diesbezüglich als Erinnerungsstütze dienen. 2 1

Wir entscheiden uns für die Übersetzung für „Zusammen-Änderung“. Das „Zusammen“ zeigt an, dass mehrere Größen im Spiel sind, die sich gemeinsam ändern. Da wir die Größen nicht kennen, handelt es sich um Variablen – also um Werte, die sich verändern können. Wir nennen die beiden Variablen X und Y.

Um es greifbarer zu machen, ein konkretes Beispiel zur Erklärung: Du gehst jeden Morgen denselben Weg zur Schule oder zur Uni. Die Zeit, die Du brauchst, richtet sich nach Deinem Gehtempo. Je schneller Du wirst, desto kürzer ist sie. Dieses Zusammenspiel ist die Kovarianz. Wir können das Ganze allerdings nicht standardisieren (also verallgemeinern). Durch den Verkehr, Baustellen, etc. kann sich die Wegzeit unerwartet verlangsamen. Vielleicht fühlst du dich auch nicht gut und läufst einen Tag langsamer als gewöhnlich. Generell gültige Berechnungen, wie sehr sich Geschwindigkeit oder Zeit ändern, sind deshalb nicht möglich.

Formel der Kovarianz

Die Formel der Kovarianz lautet:

Cov (x, y) = [ ∑ (x – ∅ x) × (y – ∅ y) ] / n. 3

Der Buchstabe „n“ beschreibt dabei die Größe der Stichprobe. (Xi – E(X)) ist die Änderung bzw. Abweichung vom Erwartungswert für die Variable X. Für (Yi – E(Y)) gilt die identische Aussage für die Variable Y. E ist der Buchstabe für das arithmetische Mittel. Berechnet wird es mittels 1/Zahl der Datenpunkte. Xi und Yi beschreiben die konkreten Messungen im Rahmen der Stichproben.

Die Kovarianz am Beispiel

Die Formel wirkt jetzt noch kompliziert, aber wird deutlich einfacher, wenn wir auf unser obiges Beispiel zurückkommen. Du hast einen Weg von 5 Kilometern. Am ersten Tag fühlst du dich gut und gehst durchschnittlich fünf Stundenkilometer (Xi). Du erreichst dein Ziel also nach 60 Minuten. Am zweiten Tag fühlst du dich leider krank und bist mit 2,5 Stundenkilometern unterwegs. Du kommst also nach 120 Minuten an.

E(X = Geschwindigkeit) ist also E(5 + 2,5) bzw. E(7,5). Wir haben zwei Datenpunkte bzw. Messwerte genommen und rechnen also 7,5/2. Wir wissen, dass du an beiden Tagen zusammen durchschnittlich 3,75 Stundenkilometer schnell warst.
E(Y = Zeit) ist E(60 + 120) bzw. E(180). Auch hier haben wir zwei Datenpunkte. Wir rechnen also 180/2 und erhalten, dass du durchschnittlich 90 Minuten unterwegs warst.

Xi mit dem Wert von Datenpunkt 1 ergibt die folgende Formel für die Abweichung vom Erwartungswert:

(5 – 3,75) = 1,25

Xi mit dem Wert von Datenpunkt 2 ergibt die folgende Formel für die Abweichung vom Erwartungswert:

2,5 – 3,75) = – 1,25

Für Yi lautet die erste Rechnung

(60 – 90) = – 30

Die zweite Rechnung ist

(180 – 90) = 90

Jetzt müssen wir das Produkt der Abweichungen bilden. Für Datenpunkt 1 lautet es:

(5 – 3,75) x (60 – 90) = 1,25 x -30 = -37,5

Für Datenpunkt 2 lautet es:

(2,5 – 3,75) x (180 – 90) = -1,25 x 90 = -112,5

Jetzt müssen wir die Summe der Ergebnisse bilden:

-37,5 + -112,5 = -150.

Weiter für die finale Berechnung der Kovarianz geht es mit dem Produkt aus:

-150 x 1/(n – 1) = -150 x 1/(2 – 1) = -150 x 1/1 = -150 x 1 = -150.

Die Kovarianz lautet also -150.

Die Kovarianz richtig interpretieren

Eine positive Kovarianz bedeutet, dass sich beide Variablen identisch verhalten. Eine negative Kovarianz ist ein Zeichen dafür, dass sich eine Variable gegenzusätzlich zur anderen bei einer Änderung verhält. Wir haben im Beispiel eine negative Kovarianz. Dies bedeutet: Steigt die Geschwindigkeit (X), so sinkt die Wegzeit (Y). Steigt hingegen die Zeit, so sinkt die Geschwindigkeit.2.

Die Kovarianz zur Korrelation umrechnen

Eine Korrelation beschreibt einen eindeutig feststellbaren Zusammenhang zwischen zwei Faktoren. Sie erlaubt deshalb eine Verallgemeinerung bezüglich der Vorhersage, wie sich eine Variable verhält, wenn sich die andere ändert, da es keine unbekannten Faktoren gibt, die Einfluss nehmen können. Als Beispiel: Je höher die Drehzahl eines Automotors ist, desto höher ist auch der Spritverbrauch. 4.

Der Buchstabe in einer Formel für die Korrelation lautet r. Wir berechnen sie über einen Koeffizienten (also die Division von zwei Werten). Hierfür soll gelten: Sxy = Kovarianz der Variablen X und Y sowie Sx = Standardabweichung von X und Sy = Standardabweichung von Y.

Die Formel lautet für den Korrelationskoeffizienten lautet

r=\dfrac{s_{xy}}{s_{x}s_{y}}

Berechnung der Standardabweichung

Was wir jetzt also noch benötigen ist die Formel für die Standardabweichung S. Diese lautet:

Standardabweichung = √ Varianz  oder  σ(X) = √Var X.

Zur Erinnerung: Letztere ist der arithmetische Durchschnitt. Kehren wir hierfür noch einmal zu unserem Beispiel zurück und tun so, als ob es keine externen Einflussfaktoren für deine Wegzeit geben würde. Diese hängt einzig und allein von deiner Geschwindigkeit ab. 5.

Für X ergibt sich folgende Formel:

Wurzel aus (((5 = Xi – 3,75 = E(X)) zum Quadrat x 1/(n – 1) + ((2,5 – 3,75) zum Quadrat x 1/(n-1))). Rein in Zahlenform haben wir: Wurzel aus (1,25 zum Quadrat + -1,25 zum Quadrat) = Wurzel aus (1,5625 + 1,5625) = Wurzel aus 3,125 = etwa 1,77.

Für Y lautet die Formel:

Wurzel aus (((60 – 90) zum Quadrat x 1/(2-1)) + ((180 – 90) zum Quadrat x 1/(2-1))) = Wurzel aus ((-30 zum Quadrat) + (90 zum Quadrat) = Wurzel aus (900 + 8100) = Wurzel aus 9000 = etwa 94,87

Berechnung des Korrelationskoeffizienten

Wir können also einsetzen: r = -150 (Kovarianz) / (1,77 (Sx) x 94,87 (Sy) = -150 / 167,92 = etwa – 0,89.

Zur Interpretation: Ein positiver Korrelationseffizient sagt aus, dass beide Variablen gleichmäßig in die gleiche Richtung wachsen oder kleiner werden. Bei einem negativen Effizienten gilt das Gegenteil. Der Effizient muss sich stets zwischen -1 und +1 bewegen. Lautet das Ergebnis 0, liegt keine Korrelation vor. 3

Kovarianz – So bestimmst du sie in Excel

Du brauchst in Excel das Datenanalyse-Paket, das du möglicherweise erst herunterladen musst. Anschließend findest du in der zugehörigen Registerkarte „Daten“ die Option Kovarianz. Das Programm kann diese nun eigenständig anhand der von dir eingegebenen Werte errechnen.6 7

Häufig gestellte Fragen

Eine Korrelations-Analyse ist die Berechnung des Korrelationskoeffizienten unter Unterstützung der Kovarianz. Das, was wir weiter oben im Beispiel gemacht haben, gehört beispielsweise dazu.

Die Kovarianz ist die Grundlage, um Erwartungen zu ermitteln. Hilfreich ist dies beispielsweise für physikalische Experimente mit linearen Größen, um eine Idee davon zu erhalten, wie sich diese bei Änderung verhalten.

Die Kovarianz-Matrix ist eine tabellarische Aufstellung (in der Regel untereinander) der gemessenen Werte für die Variablen. Die Matrix kann anschließend für die weiteren Berechnungen genutzt werden. Diese zählen ebenfalls zur Matrix.

Die Regression geht nochmals über die Korrelation hinaus und beschreibt den Zusammenhang zwischen unabhängigen und abhängigen Variablen. Sie sagt den linearen Zusammenhang zwischen den Größen voraus. Ursache und Wirkung sollen so genau berechnet werden.

Ihre Formel lautet 3

Der Korrelationseffizient wird manchmal auch mit dem Hinweis „nach Pearson“ erwähnt, weil es sich um diesen Mathematiker handelt, der ihn entwickelt hat. Die Formel ist aber genau die vorgestellte.

Quellen

1Henze N.: Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls, in: Springer, 2013 [online] https://link.springer.com/book/10.1007/978-3-658-03077-3 (abgerufen am 30.01.2023)

2Kill R.: Ausführliche Definition im Online-Lexikon, in: Gabler-banklexikon.de, o.D., [online] https://www.gabler-banklexikon.de/definition/kovarianz-81599 (abgerufen am 30.01.2023)

3Maths2mind: Kovarianz – Korrelation – Scheinkorrelation – Regression, in: Maths2mind.com, o.D., [online] https://www.maths2mind.com/schluesselwoerter/kovarianz (abgerufen am 30.01.2023)

4Online Lexikon für Psychologie & Pädagogik: Korrelation, in: Lexikon.stangl.eu, o.D., [online] https://lexikon.stangl.eu/64/korrelation (abgerufen am 30.01.2023)

5Welt der BWL: Standardabweichung, in: Welt-der-bwl.de, o.D., [online] https://welt-der-bwl.de/Standardabweichung (abgerufen am 30.01.2023)

6Fahrmeir L. et al.: Statistik – Der Weg zur Datenanalyse, in: Springer, 2016, [online] https://statologie.de/kovarianzmatrix-excel/ (abgerufen am 30.01.2023)

7Microsoft: KOVARIANZ.S (Funktion), in: Support.microsoft.com, 2021, [online] https://support.microsoft.com/de-de/office/kovarianz-s-funktion-0a539b74-7371-42aa-a18f-1f5320314977 (abgerufen am 30.01.2023)