Business Intelligence – Welcome to the Data Jungle

Veröffentlicht: 20. March 2020

Tags: #Insight & Analytics

Schon im letzten Artikel zum Thema Business Intelligence haben wir gezeigt, wieviel Vorarbeit das Aufsetzen eines BI-Systems erfordert – und diese Arbeit alles andere als trivial ist. Im nachstehenden Text geht es nun um die Lokalisierung der Daten und deren Inventur. Welche Datensilos enthalten welche Daten – und warum? Wer mit seinen Daten ernsthaft arbeiten will, muss diese Fragen früher oder später beantworten können. Wir zeigen, wie eine Bestandsaufnahme klappen kann.

Bibliothek mit Büchern und weißen Treppen

Unsere Berater treffen bei Kunden häufig auf erheblich fragmentierte Systemlandschaften, die über Jahre oder gar Jahrzehnte gewachsen sind. Den scheinbar undurchdringlichen Strukturen liegen ganz unterschiedliche Werdegänge zugrunde. Manche Auswüchse sind im Rahmen einer Firmenübernahme entstanden, andere sind das Resultat abteilungs- oder anwendungsspezifischer Insellösungen. Ein Ticketsystem hier, eine Lösung für das Kampagnenmanagement dort, dazu das leistungsstarke Tool für die Personalabteilung – fertig ist der Daten-Dschungel.

In diesem Systemdickicht weisen vorhandene Datensilos mitunter eingeschränkte Konnektivität vor, teilweise kommunizieren aber auch Systeme miteinander, von denen man es – ausgehend von der Anwendung – nicht erwarten würde, oder es ziehen sich manche Abteilungen regelmäßig Daten aus externen Quellen wie Social Media, Google Analytics oder Händlersystemen. Ein weiteres Merkmal solch gewachsener Strukturen ist, dass einzelne Mitarbeiter, die einen Teilbereich etabliert und verantwortet haben, inzwischen woanders arbeiten oder ihr Know-how mit in den Ruhestand genommen haben. Mit etwas Glück sind wenigstens die Prozesse über die Systeme dokumentiert oder Protokolle zur Systemeinführung hinterlegt, aber mit Blick auf das, was wir in unseren Projekten vorfinden, ist das eher die Ausnahme, als die Regel. Fast noch schlimmer ist, dass viele Daten in unterschiedlichen Systemen gleich mehrfach, aber in unterschiedlicher Qualität gepflegt werden.

Die Dateninventur – ein erster Schritt zum BI-System

Zahllose Fragen stehen vor einer Dateninventur unbeantwortet im Raum: „Wie finde ich eigentlich alle Systeme und Datenbanken?“ „Wer hat schon einmal von diesem System gehört?“ „Wo kommen eigentliche welche Daten her?“ „Warum werden die Daten hier gepflegt – und warum doppelt?“ „Was verbirgt sich hinter dem Datenfeld namens ‚BUCDAT‘ und ‚GWOPSTATUS‘?“

Wer sich bereits vorab eine Vorstellung von den notwendigen einzelnen Arbeitsschritten einer Dateninventur macht, wird „den Wald vor lauter Bäumen“ vermutlich schneller sehen. Die Inventur beschreibt im Wesentlichen die Analyse und Bewertung der vorhandenen Datenquellen einer Systemlandschaft. Eine solche Bestandsaufnahme schafft Klarheit und beantwortet Fragen über das große Ganze bis hinunter ins Detail. Am Ende des Prozesses sollte eine übersichtliche, verständliche und vollständige Systemlandkarte stehen, die folgende Elemente umfasst.

1. Systeme: Erfassen Sie im ersten Schritt alle relevanten Systeme und deren Rolle.

2. Daten: Erfassen und verstehen Sie alle relevante Daten und Datenwerte. Dies beinhaltet eine Prüfung und Bewertung der Datenqualität auf Feldebene und eine Evaluierung ihres Nutzen für konkrete Anwendungen.

3. Datenfluss: Erfassen und bewerten Sie die vorhandenen Schnittstellen und Exportfunktionalitäten und leiten Sie daraus ein Datenflussdiagramm in Form einer prozessorientierten Landkarte ab.

Auf diese drei Elemente gehen wir nachstehend im Detail ein.

Systemlandkarte aufbauen

Mit Blick auf unsere Projekterfahrung hat es sich bewährt, zunächst einmal mit der Identifikation der technischen Infrastruktur und zugrundeliegenden Datenbanken zu beginnen. Konkret erstellen wir eine Übersicht, in der ausnahmslos alle Datenbanken gelistet sind. Diese können nach Kriterien wie

- Datenverfügbarkeit (direkt/indirekt)

- Datenherkunft (intern vs. extern) oder

- Relevanz (relevant vs. nicht relevant)

kategorisiert werden. Wichtig ist, dass man einen übergeordneten Blick über alle Datenbestände bekommt.

Diese Übersicht bezeichnen wir intern als Schatzkarte, denn wie bei einer Schatzsuche stoßen wir in fast jedem System auf überraschende, unvorhersehbare und manchmal sehr nützliche Datenschätze.

Als wichtigste Informationsquelle im Rahmen der Kartierung dienen vor allem Interviews mit den Mitarbeitern aller Fachabteilungen, allen mit voran IT-Spezialisten und Leuten aus dem Controlling. Sie nutzen die Systemen aktiv und kennen neben der Dateneingabe auch den Datenbestand aus eigener Anschauung.

Daten

Relevante Daten und deren Qualität definieren

Getreu dem geflügelten englischen Wort „Garbage in – garbage out“ ist der Nutzen von qualitativ minderwertigen Daten überschaubar. Schlechte Daten produzieren nur wenig belastbare Analysen. Im schlimmsten Fall sorgen falsche oder irreführende Ableitungen für eine sinkende Performance an der Kundenschnittstelle.

Nachdem eine Übersicht aller Systeme vorliegt und die jeweils relevanten Daten identifiziert sind, ist daher im weiteren Schritt entscheidend, in welcher Qualität die Informationen vorliegen. Häufig pflegen Unternehmen ihre Daten parallel in mehreren Systemen. Je nachdem, unter welcher Prämisse dies geschieht, liegen die Daten meist in sehr unterschiedlicher Qualität vor. Zwischen Daten und Anwendung herrschen immer gewisse Wechselwirkungen. Die Relevanz konkreter Daten ergibt sich daher aus der Überlegung, welche Daten in welcher Datenqualität für welche Anwendungsszenarien benötigt werden.

Fast schon trivial, aber in der Praxis immer wieder erklärungsbedürftig ist die Tatsache, dass natürlich nur solche Analysen oder Anwendungen möglich sind und funktionieren können, zu denen die richtige Datengrundlage gegeben ist. Umgekehrt finden sich bei der Dateninventur von Firmen und Organisationen immer auch Daten, die in der unternehmerischen Praxis (noch) keine konkrete Anwendung unterstützen.

Datenqualität für Business Intelligence Systeme bestimmen

Erfahrungsgemäß kommen die nachstehenden elf Datenqualitätskriterien zur Anwendung – wenn auch nur in den seltensten Fällen gleichzeitig. Vielmehr wird eine Auswahl aus den elf Kriterien entsprechend der Sinnhaftigkeit und dem Zweck getroffen.

Einheitlichkeit: Inhalte eines Datensatzes müssen fortlaufend einheitlich präsentiert und strukturiert sein. Hierunter fällt etwa die normgerechte Schreibweise von Umlauten.

Korrektheit: Die Information eines ausgefüllten Datenfelds muss belastbar und verlässlich sein.

Vollständigkeit: So wie ein Datensatz alle notwendigen Attribute umfassen muss, müssen Attribute alle erforderlichen Daten enthalten.

Relevanz: Die vorliegenden Informationen eines Datensatzes müssen den Informationsbedarf decken.

Konsistenz: Jeder Datensatz muss in sich plausibel und im Außenverhältnis zu anderen Datenräumen schlüssig sein.

Redundanzfreiheit: Es existiert keine doppelte oder mehrfache Speicherung gleicher Daten.

Zuverlässigkeit: Es sollte ersichtlich und nachvollziehbar sein, wie die Daten zustande gekommen sind.

Genauigkeit: Die Daten müssen konkreten formalen Vorgaben, etwa der Anzahl von Nachkommastellen, entsprechen.

Aktualität: Alle Datensätze müssen den ist-Zustand ihres Gegenstands wiederspiegeln. Eindeutigkeit Ein Datensatz darf keinen Interpretationsspielraum zulassen.

Verständlichkeit: Bezeichnungen und Struktur der Datensätze sollten auf die Erwartungen des Datenempfängers zugeschnitten sein.

Als Einstieg in die Qualitätsbewertung empfehlen wir, zunächst mit einem Set von zwei oder drei der oben genannten Kriterien zu arbeiten. Zielführend sind nach unserer Erfahrung die sechs Merkmale Einheitlichkeit, Korrektheit, Vollständigkeit, Relevanz, Konsistenz und Redundanzfreiheit. Im Laufe der Zeit können weiter Kriterien hinzugezogen werden.

Wie bei der initialen Kartierung geben auch bei der Datenqualitätsanalyse Anwenderinterviews einen ersten erhellenden Eindruck. Tiefere Einblicke in die Datenqualität gewähren stichprobenartige Analysen in den einzelnen Kategorien, etwa zur Prüfung des Füllstands oder der Plausibilität.

Wichtig ist der erste Überblick zur Entwicklung des Zielbildes (Anwendungen) und der Auswahl des passenden BI-Tools. Viele Programme und Tools beherrschen bereits gewisse automatisierte Datenqualitätsprüfungen wie etwa eine Füllstandanalyse.

Datenfluss ableiten

Kundendaten liegen typischerweise an vielen verschiedenen Orten im Unternehmen, wo sie individuell gepflegt werden. Teilweise stehen diese Datenquellen miteinander in Verbindung, wie bei einem CRM-System, das häufiger mit einem ERP-System oder einem Kampagnenmanagementtool verknüpft ist, und von dort Daten zu Auslieferungen oder Kampagnen bezieht. Hier gilt es, genau jene Datenbank zu identifizieren, welche die Kundendaten in höchster Qualität führt – die Single Source of Truth. Über verschiedene Schlüssel wie Kundennummern oder Kommissionsnummern lassen sich dann Verbindungen zu anderen Systemen herstellen.

Wechselwirkung von Eingabe- und Zielsystem

Zentral für die Datenfluss-Analyse ist ein Verständnis über die Wechselwirkungen zwischen den Systemen. Die Analyse muss offenbaren, welches System welche Daten wie und von wo erhält, und welches System Daten lediglich aus- und weitergibt.

Die Befunde lassen sich etwa in einem Prozessdiagramm, einer Mindmap oder einer vergleichbaren Darstellungsform dokumentieren, und Übersichten über Primär- und Sekundärsysteme auch in Excel abbilden. Ziel ist eine ausführliche Darstellung darüber, welche Daten unternehmensweit in welchen Systemen und in welcher Datenqualität bereitstehen.

Anhand der Übersicht lassen sich schließlich Anwendungsszenarien ableiten, die wiederum für die Wahl das geeignete BI-Tools ausschlaggebend sind.

Ein Fazit – fünf Aspekte

1. But first: Data! Daten bestimmen das Zielbild (Anwendungsmaßnahmen) jedes Unternehmens wie auch die Tool-Auswahl.

2. Die Daten liegen häufig in fragmentierten Systemlandschaften vor.

3. Fange mit einem Gesamtüberblick der Systemlandschaft an – Interviews mit Controlling und IT verhelfen zu einem schnellen Überblick.

4. Datenqualität kann mittels vieler verschiedener Parameter präzise bestimmt werden. Zum Start reicht eine grobe Einschätzung per Stichprobe.

5. Vorsicht vor Datenflüssen zwischen den Systemen – finde die Quelle der Wahrheit!

Im nächsten Artikel der Reihe befassen wir uns mit der Definition des Zielbildes und der Technologieauswahl.

Ansprechpartner

Georg Deibert

Director Data & BI

Seit Januar 2011 entwickelt der münsteraner Wirtschaftsinformatiker bei MUUUH! Unternehmensdaten zu einer strategischen Ressource und zum Grundstein für das analytische...

Telefon: +491703736849
E-Mail: georg.deibert@muuuh.de

Mehr über Georg Deibert

Wir beraten unsere Kunden umfassend zu allen Facetten des Kundenmanagements.

Mehr MUUUH! Consulting

Business Intelligence – Welcome to the Data Jungle

Die Dateninventur – ein erster Schritt zum BI-System

Systemlandkarte aufbauen

Daten

Relevante Daten und deren Qualität definieren

Datenqualität für Business Intelligence Systeme bestimmen

Datenfluss ableiten

Wechselwirkung von Eingabe- und Zielsystem

Ein Fazit – fünf Aspekte

Georg Deibert

Kontakt

MUUUH! Insights

Neue Struktur! Bald auch für die Website.

Business Intelligence – Welcome to the Data Jungle

Die Dateninventur – ein erster Schritt zum BI-System

Systemlandkarte aufbauen

Daten

Relevante Daten und deren Qualität definieren

Datenqualität für Business Intelligence Systeme bestimmen

Datenfluss ableiten

Wechselwirkung von Eingabe- und Zielsystem

Ein Fazit – fünf Aspekte

Georg Deibert

Von Daten zu Einsichten: KI-gestützte Zufriedenheitsbefragungen

Cost to Serve im Stadtwerk – Teil 2: Kosten senken mit dynamischen Personas

Cost to Serve im Stadtwerk – Teil 1: Mehr Datenqualität durch neue Rollen

Datengetriebener Automobilhandel: Wie datenbasierte Entscheidungen das Geschäft transformieren können

MUUUH! Insights

Akzeptiere Marketing Cookies, um dieses Formular zu sehen.

Neue Struktur! Bald auch für die Website.