Datenkompetenz – Fünf Fragen, die Sie immer stellen sollten

Die technischen Möglichkeiten, Daten zu sammeln und zu kombinieren, haben sich in den letzten Jahren stark weiterentwickelt. Im Gleichschritt sind neue Berufsfelder entstanden. In Jobportalen kommt man an den Inseraten für Daten Engineers, Daten Analysten und Data Scientists nicht herum.

Diese Entwicklung ist begrüssenswert, da sie Unternehmen erlaubt Entscheidungen faktenbasierter und reflektierter zu treffen bzw. Künstliche Intelligenz unternehmensbezogen zu implementieren. Der Umgang mit Daten und daraus gewonnenen Informationen erfordert jedoch neue Kompetenzen von Führungskräften und Mitarbeitenden. Wer eine Statistik oder einen ganzen Report vor sich hat, sollte den Inhalt kritisch bewerten, bevor darauf basierend argumentiert oder Entscheidungen getroffen werden. Die folgenden fünf Fragen sollten Sie deshalb immer stellen:

1. Was sagen die Daten aus bzw. was sagen sie nicht aus?

2. Sind die Daten aktuell und repräsentativ?

3. Wer hat die Daten gesammelt?

4. Wie wurden die Daten gesammelt und verarbeitet?

5. Wie werden die Daten präsentiert?

Quelle: pixabay.com, Bild von geralt (Original in Farbe)

Logisch und einfach, denken Sie jetzt wahrscheinlich. Das mag so sein. Aber Hand aufs Herz – haben Sie diese Fragen für sich beantwortet, als Sie das letzte Mal eine Statistik in der Zeitung gelesen haben oder als bei der letzten Präsentation in Ihrem Unternehmen eine Auswertung gezeigt wurde?

Die Fragen sind einfach und grundsätzlich selbsterklärend. Dennoch finden Sie nachfolgend einige Ergänzungen sowie Beispiele zu den einzelnen Fragen.

1. Was sagen die Daten aus bzw. was sagen sie nicht aus?

Bei jeder Statistik muss die zugrunde liegende Frage mitgeliefert werden. Diese Frage sollte sich mit dem decken, was Sie selbst wissen möchten, damit die Statistik für Sie anwendbar ist. Angenommen, Sie erhalten einen Report mit den Kundenbewertungen aller Produkte Ihres Unternehmens. Bei jedem Produkt sind maximal 5 Sterne möglich, und alle Produkte haben eine Bewertung von mindestens 4.5 Sternen. Bedeutet dies nun, dass die Kunden mit allen Produkten zufrieden sind? Bedeutet es gar, dass die Kundenzufriedenheit hoch ist? Vielleicht, vielleicht aber auch nicht.
Kunden können die Bewertungsskala unterschiedlich anwenden. Eine 4 bei einer Person entspricht bei einer anderen Person vielleicht nur einer 3. Zudem wissen wir nicht, bei wie vielen der Käufe eine Rückmeldung erfolgte. Wir wissen auch nichts über die Anzahl Reklamationen und wie gut der Supportprozess funktioniert. Wenn Sie eine Aussage über Kundenzufriedenheit haben wollten, dann ist der vorliegende Report für Sie nicht hilfreich.

Wahrscheinlich haben Sie die Aussage «Korrelation bedeutet nicht Kausalität» schon einmal gehört. Trotzdem geht diese Regel oft vergessen, was dazu führt, dass Daten falsch interpretiert werden. In einem einfachen Fall, z.B. bei einer Korrelation zwischen Eisverkäufen und Hai-Attacken, ist offensichtlich, dass diese Korrelation keine Kausalität bedeutet. Die Korrelation ist wahrscheinlich bedingt durch die sommerlichen Temperaturen in beiden Fällen. Dann geniessen viele Leute ein Eis bzw. schwimmen mehr Personen im Meer. Schwieriger wird eine Interpretation bei ähnlichen Variablen. Höhere Mieten in Gemeinden mit niedrigen Steuersätzen lassen sich nicht ausschliesslich durch die Steuersätze erklären. Andere Faktoren wie Lage, Infrastruktur und Wohnungstyp spielen ebenfalls eine Rolle.

2. Sind die Daten aktuell und repräsentativ?

Repräsentativ bedeutet, dass die Daten so ausgewählt bzw. erhoben wurden, dass sie ein genaues Abbild einer grösseren Grundgesamtheit darstellen. Die Daten sollten die Merkmale der gesamten Gruppe, die untersucht wird, widerspiegeln. Hierzu ist es nötig, dass die Daten zufällig erhoben werden, die Stichprobe eine ausreichende Grösse hat und die Diversität der Grundgesamtheit berücksichtigt wird (Alter, Geschlecht, Bildung, Einkommen etc.). Es reicht nicht, einfach nur eine grosse Stichprobe zu haben – alle drei Faktoren müssen erfüllt sein.

Wenn beispielsweise die Beliebtheit eines Politikers erhoben werden soll, dürfen nicht nur die Wähler der eigenen Partei befragt werden.  

3. Wer hat die Daten gesammelt?

Vorurteile sowie politische oder finanzielle Interessen können die Datensammlung beeinflussen. Deshalb ist es entscheidend die Datenquelle zu kennen und sich zu vergewissern, dass diese zuverlässig ist. Im September 2024 wurde in der Schweiz aufgedeckt, dass bei der Sammlung von Unterschriften für Volksinitiativen Fälschungen vorgenommen wurden. Ähnliches kann auch bei der Erhebung von Marktforschungsdaten geschehen.

4. Wie wurden die Daten gesammelt und verarbeitet?

Die Sammlung von Daten kann beobachtungsbasiert oder experimentell erfolgen. Beobachtungsbasierte Daten werden passiv gesammelt (z.B. Besuche einer Website), experimentelle Daten werden hingegen unter vordefinierten Bedingungen erhoben (z.B. medizinische Studie). Die meisten Geschäftsdaten sind beobachtungsbasiert. Kausalitäten müssen in solchen Fällen mit Skepsis begegnet werden, denn die Ergebnisse können bei einer erneuten Sammlung erheblich abweichen.

Oft werden bei der Datenerhebung bewusst bestimmte Daten nicht aufgenommen. Ein Beispiel wäre eine Fondsgesellschaft, die ältere Fonds, die schlecht performen, bewusst aus ihren Performance-Darstellungen ausschliesst.

Bei Datenerhebungen ergeben sich oft «Ausreisser», d.h. Datenpunkte, die sich erheblich von den anderen unterscheiden. Es kann gute Gründe geben, diese Datenpunkte zu löschen. Dies muss aber transparent dokumentiert sein.

5. Wie werden die Daten präsentiert?

Visuelle Verzerrungen, wie die Änderung des Startpunktes einer Achsenhöhe zur Verflachung einer Kurve, sind allgemein bekannt. Achten Sie bewusst auf solche (manipulativen) Darstellungen.

Schliesslich ist zu berücksichtigen, welche statistische Lagemasse verwendet wurde. Mittelwert, Median oder Modalwert liefern je nach Skalenniveau unterschiedliche Aussagen. Wurden bei der Verarbeitung der Daten «Ausreisser» behalten, aber anschliessend der Median statt des Mittelwertes genommen, werden diese extremen Daten wieder relativiert. Dies kann sinnvoll sein, aber Sie sollten sich dessen bewusst sein.  

Wie eingangs erwähnt, sind die vorgestellten fünf Fragen einfach und wirken logisch. Sie sollten jedoch als Kompetenz verinnerlicht werden, da es wichtig ist, kritisch mit Informationen umzugehen und diese reflektiert zu interpretieren.