Data Scientist NDK HF

Die 10 häufigsten Fehler im Umgang mit Daten

IBAW

Data Scientisten - Experten im Bereich Big Data

Von Marina Schulz | 07.05.2019
Um Daten zu sammeln gibt es eine Vielzahl von Möglichkeiten - über kostenlose Tools, integrierte Dienstleistungen oder spezialisierte Werkzeuge. Unumgänglich ist jedoch, einen Spezialisten an Board zu haben: Den Data Scientist – eine begehrte, aber selten gefundene Fachperson im Bereich Big Data. Wie kommt er zu den "richtigen" Daten und was stellt er damit an? Erfahren Sie die zehn häufigsten Fehler im Umgang mit Daten und erhalten Sie Lösungen, wie der Data Scientist diese Fehler professionell verhindert.

Unternehmen sitzen auf hohen Datenbergen und allzu oft werden diese Daten ausgewertet, ohne deren Qualität zu hinterfragen. Der Data Scientist ist in Unternehmen der verschiedensten Branchen deshalb gesucht, wie die Nadel im Heuhaufen. Denn eine strategische Datenanalyse wird erst dann effektiv, wenn man die Person mit dem nötigen fachlichen Know-how hat, den Data Scientist. Er weiss, wie Daten gewinnbringend verarbeitet, ausgewertet und für die zukünftige Unternehmens-Entwicklung genutzt werden sollen. Dieses Bedürfnis ist enorm und wächst stetig. «Fehler passieren häufig schon vor dem eigentlichen Auswerten von Daten, was zu falschen Resultaten oder gar falschen Entscheidungen führen kann.» bestätigt Philippe Moser, Dozent im Studiengang «Data Scientist NDK HF» am IBAW sowie CEO und Database Engineer der auridia GmbH. Wie zuverlässig ist beispielsweise die Angabe des Geburtstagsdatums einer Person? Wurde dies bei einer Umfrage über das Internet durch den Benutzer selbst erfasst? Oder wurde es bei Abschluss eines Geschäfts anhand eines Ausweises erhoben und verifiziert? Fehler passieren – sei es in der Gewinnung, wie auch in der Auswertung der Daten.

Folgende zehn Fehler treten in der Praxis im Umgang mit Daten regelmässig auf:

  1. Daten werden nicht vollständig aufgenommen
  2. Daten sind nicht aktuell und werden nicht laufend aktualisiert
  3. Datenauswahl ist nicht repräsentativ
  4. Datenschutz wird nicht eingehalten
  5. Daten werden ohne Konzept gesammelt
  6. Daten sind nicht kategorisiert
  7. Qualität der Daten wurde nicht geprüft
  8. Unternehmen, das die Daten sammelt, hat keine klare Policy für den Umgang mit Daten
  9. Daten werden nicht laufend bereinigt, so dass die Datenqualität nicht gewährleistet ist
  10. Resultate von Studien werden nicht in den richtigen Zusammenhang gestellt

Wie können diese Fehler umgangen werden? Da kommt der Data Scientist ins Spiel, der begeisterte Problemlöser: Er hat eine Forschermentalität und freut sich über jedes neu gefundene Muster im Datenpuzzle. Er hört den Daten zu, dreht und wendet sie, begutachtet die Daten aus unterschiedlichsten Perspektiven und sucht nach Trends, um businessrelevante Aussagen machen zu können, die auf Fakten und nicht mehr auf Meinungen beruhen. Denn er ist sich stets bewusst: Daten sind das Ticket zum Geschäftserfolg. Im Studium «Data Scientist NDK HF» am IBAW werden folgende Aufgaben thematisiert, die bei der Datensammlung beachtet werden müssen, so dass Fehler von Anfang an verhindert werden können:

Ein übergreifendes Datenkonzept erstellen:
Das Datenkonzept benötigt eine Analyse und Definition, welche Daten für das Unternehmen massgeblich sind, welche für den Unternehmenserfolg aktuell nötig sind und welche künftig interessant werden könnten. Diese MUSS-Felder müssen in diesem Schritt definiert werden.

Definition einer Datenqualitätsstrategie:
Ohne Strategie kein Erfolg! Bevor durch Datenanalysen und Datenauswertungen neue Modelle entwickelt, Entscheidungen getroffen und Geschäftsfelder definiert werden können ist es wichtig, die korrekte Strategie zur Optimierung der Datenqualität zu erarbeiten. Dazu gehören insbesondere folgende zwei Schritte:

  1. Operative Abläufe definieren
  2. Sicherstellen, dass sich alle Bereiche (Prozesse, Abteilungen, Systeme) mit der Datenqualität befassen und dabei mehr als „Kosmetik“ betreiben.

 

Daten laufend auf Aktualität und Vollständigkeit überprüfen und gegebenenfalls anpassen:
Daten nehmen einen immer grösseren Stellenwert ein. Umso wichtiger ist es, die Daten laufend auf Aktualität und Vollständigkeit zu überprüfen. Dabei gilt, insbesondere die manuell erfassten Daten zu überprüfen.

Protokollierung der Datenzugriffe:
Wer wann was gemacht hat muss aufgezeichnet werden – beispielsweise wer welche Daten sichtet, anpasst oder löscht. Dadurch wird sichergestellt, dass „nur“ befugte Personen Daten manipulieren können und es ist jederzeit nachvollziehbar, was geändert beziehungsweise angepasst wurde. Der Datenschutz kann dadurch sichergestellt werden.

Definition von Metadaten und Kategorien:
Mittels strukturierter Daten (Kategorien, Metainformationen) können Daten besser kategorisiert, gefiltert und für spätere Auswertungen benutzt werden. Typische Merkmale sind zum Beispiel Dateiname, Datum, Ort, Zugriffsrechte, Verlag.

Bei sensiblen Daten das 4-Augen-Prinzip einführen:
Das 4-Augenprinzip ist eine häufige Massnahme, um die Datenqualität zu erhöhen und die Fehlerquote zu minimieren. Dies setzt zwar personelle Ressourcen voraus, die Datenqualität kann jedoch stark optimiert werden, was auch eine positive Auswirkung auf die Qualität von Auswertungen und Datenanalyse mit sich bringt.

Durchführen von regelmässigen Datencleanings:
Datencleaning, auch als Datenbereinigung bekannt, ist eine der möglichen Verfahren, um die Datenqualität zu verbessern. In der Regel wird eine Datenbereinigung in fünf Schritten durchgeführt:

 

  1. Sicherungskopie der bestehenden Daten
  2. Anforderungen der Datenqualität festlegen
  3. Analyse der Daten
  4. Standardisierung
  5. Bereinigung der Daten

 

 

Bevor man im letzten Schritt die fehlerhaften Daten bereinigt, müssen die Anpassungen dokumentiert und gesichert werden. Somit kann zu einem späteren Zeitpunkt jede Anpassung nachvollzogen werden.

Auswertungen definieren und Schlussfolgerungen ableiten:
Daten sammeln alleine reicht nicht. Hat man die Daten beisammen gilt es für den Data Scientist, die richtigen Auswertungen zu treffen und basierend auf den Resultaten entsprechende nächste Schritte zu definieren.

Hansruedi Brunner, Dozent im Studiengang «Data Scientist NDK HF» am IBAW und Consultant bei SmartIT Services AG ist in seinem IT-Alltag mit diversen Firmen bezüglich Datensicherheit und Datenschutz im Austausch. Dass Fehler passieren, wo Daten gesammelt werden, weiss niemand besser als er. So kann es passieren, dass er hie und da um hilfreichen Rat gebeten wird. Erst kürzlich bekam er einen dringenden Anruf eines Unternehmens: Der dortige Systemverantwortliche ist unerwartet verstorben. Neben der menschlichen Bestürzung und Trauer sind durch diesen Verlust akute datentechnische Probleme entstanden: Die Zugriffe auf die Datenbestände mit den zugehörigen Auswertungen funktionierten zwar noch, es konnten daran aber keine nötigen Anpassungen mehr vorgenommen werden. Über mehrere Jahre wurde hier zuverlässige Arbeit geleistet im Feld der Datengewinnung und –analyse. Niemand kontrollierte aber, ob Konzepte, Abfragen oder Passwörter für Dritte verständlich und umfassend dokumentiert wurden, so dass die nun erforderlichen Anpassungen auch ohne den ursprünglichen Ersteller hätten ausgeführt werden können. «Ein konkreter Fall also», so Hansruedi Brunner, «welcher als exemplarisches Beispiel für den Nutzen der Weiterbildung zum Data Scientist steht.» Die weltweite Datenmenge wird sich weiterhin vergrössern und die rasant fortschreitende Digitalisierung ermöglicht eine immer intensivere Nutzung und bessere Vorhersagen zukünftigen Verhaltens aus bestehenden Daten. Weil immer mehr Geschäftsvorgänge davon abhängen, werden Datensicherheit und Wiederherstellungsfähigkeit immer wichtiger. Kein Wunder, sind Data Scientists sehr begehrt auf dem Arbeitsmarkt. Denn Firmen, die in der Lage sind, die Informationen für die Zukunft aus den Daten herauszuholen und verlässlich zu bearbeiten, erschaffen sich einen entscheidenden Wettbewerbsvorteil. Und so verwundert es auch nicht, dass Hansruedi Brunner auf die Frage, wie man für seine berufliche Zukunft aussorgen kann, antwortet: «Werden Sie Data Scientist und arbeiten Sie tagtäglich mit dem neuen wertvollen Gut Daten.»

Autor
Angela Meier
Angela Meier