CAFM: Datenbereinigung und Datenaufbereitung
Facility Management: FM-Software » Strategie » Integration » Datenbereinigung
CAFM: Datenbereinigung und Datenaufbereitung
Datenbereinigung und Datenaufbereitung sind in CAFM-Einführungen selten ein „Teilpaket“, sondern de facto die tragende Voraussetzung dafür, dass Prozesse, Reports, Betreiberpflichten und Integrationen später verlässlich funktionieren. In der Praxis wird ein CAFM-System von Anwendern nicht nach Funktionsumfang bewertet, sondern nach einer einfachen Frage: Sind die Daten plausibel – und finde ich mich darin wieder? Wenn Flächen abweichen, Assets doppelt sind oder Zuordnungen fehlen, sinkt Akzeptanz und Nutzen dramatisch.
Wichtig ist dabei: Datenqualität ist im FM nicht nur Effizienzthema, sondern berührt auch Finanzsteuerung (Flächen, Kosten, Leistungsverrechnung), Betriebssicherheit/Compliance (Instandhaltung, Nachweise) und Entscheidungsfähigkeit (Portfolio- und Investitionsplanung). Standards und Normen geben hierfür Leitplanken: Für Datenqualität existiert z. B. ein allgemeines Qualitätsmodell (ISO/IEC 25012), das ausdrücklich dafür gedacht ist, Anforderungen zu definieren, Messgrößen abzuleiten und Bewertungen/Verbesserungen zu planen.
Datenqualität und Harmonisierung im CAFM
- Begriffsrahmen
- Datenqualität im FM
- Typische Datenquellen
- Vorgehensmodell
- Strukturabgleich
- Dublettenmanagement
- Harmonisierung über Systemgrenzen
- Validierungs- und Plausibilitätsregeln
- Datenanreicherung
- ETL-Architektur
- Transformationsregeln dokumentieren
- Qualitätssicherung
- Besonderheiten in der Aufbereitung
- Governance und Rollen
- Typische Fehlerquellen
- Deliverables
- Datenqualität als Betriebsprozess
In Projekten lohnt eine saubere Trennung – sonst wird „Datenbereinigung“ zum Sammelbegriff für alles, und am Ende weiß niemand, was fertig ist.
| Begriff | Kernziel | Typische Maßnahmen | Typisches Ergebnis |
|---|---|---|---|
| Datenbereinigung | Fehler und Redundanzen entfernen | Dubletten entfernen, Werte korrigieren, Formate vereinheitlichen, Pflichtfelder schließen | „Sauberer“ Ist-Datenbestand |
| Datenharmonisierung | Widerspruchsfreie, einheitliche Sicht über mehrere Quellen | Führende Quelle pro Domäne festlegen, Schlüssel-/ID-Abgleich, Mappingtabellen | Einheitliche Stammdaten über Systemgrenzen |
| Datenaufbereitung (Transformation) | Daten in Zielstruktur bringen | ETL-Regeln, Konvertierung von Datentypen, Hierarchiebildung | Importfähige Datenpakete im Zielmodell |
| Datenanreicherung | Daten inhaltlich „wertiger“ machen | Klassifikation (z. B. Flächenarten, Kostengruppen), Kritikalitäten, Gewerke | Steuerungs- und reportingfähige Daten |
Datenqualität im FM: Welche Dimensionen sind relevant?
Damit Datenqualität messbar wird, sollte sie nicht nur „gefühlt“ diskutiert werden. ISO/IEC 25012 beschreibt ein allgemeines Datenqualitätsmodell und ordnet Qualitätsmerkmale (insgesamt fünfzehn) in „inhärente“ und „systemabhängige“ Perspektiven ein.
Für CAFM-Projekte hat sich eine pragmatische Auswahl bewährt, die fachlich anschlussfähig ist:
| Qualitätsdimension | FM-typische Bedeutung | Beispielhafte Prüfregel |
|---|---|---|
| Vollständigkeit | Prozesse brechen an fehlenden Pflichtfeldern | „Jedes Asset hat Standort, Objekt, Gewerk, Verantwortlichen“ |
| Konsistenz | Widersprüche zerstören Vertrauen in Reports | „Raumfläche = Summe Teilflächen“ / „Kostenstelle existiert im ERP“ |
| Eindeutigkeit | Dubletten erzeugen falsche Summen und doppelte Wartung | „Asset-ID eindeutig“, „Raumcode eindeutig je Gebäude“ |
| Aktualität | Betrieb folgt der Realität, nicht dem Altbestand | „Stillgelegte Anlagen nicht aktiv“, „Mietflächen Stand Datum X“ |
| Validität/Regelkonformität | Daten müssen Norm-/Regelwerk entsprechen | Flächen nach DIN 277 bzw. FM-Flächenlogik konsistent ausweisen |
| Integrität (Referenzen) | Hierarchien/Zuordnungen müssen stimmen | „Raum gehört zu Etage; Etage zu Gebäude; Gebäude zu Standort“ |
| Nachvollziehbarkeit/Traceability | Abnahme und Audits brauchen Herkunft/Änderung | „Quelle, Importdatum, Regelversion je Datensatz“) |
In CAFM-Projekten ist selten eine Quelle „die Wahrheit“. Häufig sind Wahrheiten verteilt – und widersprüchlich.
| Quelle | Typische Inhalte | Häufige Probleme | Praktischer Hinweis |
|---|---|---|---|
| Altes CAFM/CMMS | Assets, Wartungspläne, Tickets, Dokumente | historischer Ballast, Dubletten, gewachsene Nummernkreise | nicht 1:1 übernehmen – erst Zielmodell prüfen |
| ERP (z. B. SAP) | Kostenstellen, Kreditoren, Anlagenbuchhaltung, Verträge | andere Objektlogik als CAFM, Schlüsselkonflikte | Führungsdomäne festlegen (z. B. Kostenstelle im ERP) |
| Excel-Listen | Inventar, Raumlisten, Dienstleister | Versionschaos, Spaltenwildwuchs, manuelle Fehler | Excel ist oft „Schatten-ERP“ – ernst nehmen |
| CAD | Geometrie, Grundrisse, Raumzuschnitte | Raumbezeichnungen anders als FM, fehlende IDs | CAD braucht ID-Strategie (Raumcode/Room GUID) |
| BIM/IFC | Bauteile, Räume, Anlageninformationen | Datenumfang hoch, FM-Relevanz unklar | FM-Datenbedarf vorgeben (COBie/Subset) |
| Dokumentenarchive | O&M-Dokus, Prüfberichte | unstrukturierte Metadaten, keine Zuordnung | Metadatenmodell + Zuordnungsregeln definieren |
Gerade BIM verdient einen eigenen Satz
Für die Übergabe in den Betrieb existiert mit COBie eine Spezifikation, die einen standardisierten Satz an Raum‑, Produkt‑ und Equipmentdaten sowie O&M-/Commissioning-Informationen organisiert, damit Eigentümer ihre Wartungs-/FM-Systeme schneller und sauberer befüllen können.
Dateninventur und Profiling als Startpunkt
Bevor bereinigt wird, muss man wissen, was man überhaupt hat. Profiling ist dabei kein Luxus, sondern Grundlage für Aufwand, Risiken und Regelwerk.
In der Praxis umfasst das:
Erfassung aller Quellen inkl. Ansprechpartner
Technische Sicht: Tabellen/Felder/Datentypen/Volumen
Fachliche Sicht: Bedeutung, Nutzung, „vertrauenswürdig oder nicht“
Erste Qualitätsmessung (Nullquote, Dublettenquote, Regelverstöße)
Eine bewährte Inventur- und Profiling-Tabelle sieht so aus:
| Datenobjekt (Domäne) | Quelle | Volumen | Primärschlüssel vorhanden? | Nullquote kritische Felder | Dublettenindikator | Fachlicher Owner | Bewertung |
|---|---|---|---|---|---|---|---|
| Gebäude | Excel „Standorte_2024“ | 320 | nein | hoch | mittel | FM | kritisch |
| Räume | CAD-Raumliste | 18.50 | teils | mittel | hoch | Planung/FM | kritisch |
| Assets | Altes CMMS | 42.00 | ja | mittel | mittel | Technik | mittel |
| Verträge | ERP | 1/1/0200 | ja | niedrig | niedrig | Einkauf | gut |
Im CAFM bedeutet das besonders:
Objekt-/Flächenhierarchie (Standort → Gebäude → Etage → Raum)
Asset-Hierarchien (System → Anlage → Komponente; ggf. technische Plätze)
Schlüsselstrategie (IDs, Nummernkreise)
Attributkatalog (Pflicht/optional, Datentypen, Wertebereiche)
Bei Flächen sollte explizit entschieden werden, welcher Standard gilt (DIN 277, EN 15221-6 bzw. interne FM-Definition). DIN 277 unterscheidet z. B. BGF, NRF sowie innerhalb der NRF Nutzungs‑, Technik‑ und Verkehrsflächen; das ist für saubere Summenbildung und Vergleichbarkeit entscheidend. Für FM-Flächenbemessung adressiert EN 15221‑6 gerade die Notwendigkeit eines gemeinsamen, harmonisierten Messrahmens.
Dublettenmanagement und Normalisierung (praktisch, nicht akademisch)
Dubletten entstehen im FM oft durch „gleich, aber nicht gleich“: Schreibvarianten, unterschiedliche Nummernkreise, unterschiedliche Lebenszyklus-States. Deshalb braucht Dublettenmanagement Regeln + fachliche Entscheidung.
| Objektart | Häufiger Dublettenfall | Erkennungslogik | Entscheidungskriterium |
|---|---|---|---|
| Räume | „B 1.023“ vs. „B-1-023“ | Normalisierte Raumcodes | CAD als Geometriequelle, CAFM als Nutzungskontext |
| Assets | Anlage doppelt (alt/neu) | Hersteller+Typ+Seriennr + Standort | „Aktiv“-Status, letzte Wartung, Betreiberpflichtzuordnung |
| Lieferanten | „Müller GmbH“ vs „Mueller GmbH“ | Name+UStID/IBAN | ERP als führend |
| Verträge | Versionen ohne Kennzeichnung | Vertragsnr + Laufzeit + Vertragspartner | juristisch gültige Version, Status |
Wichtig ist eine Regel
Niemals stillschweigend löschen. Dubletten werden in der Regel in „Master“ und „Alias/History“ überführt (oder archiviert), damit Historie nicht verloren geht. Normalisierung betrifft dann die konsequent einheitlichen Formate: Einheiten, Datumsformate, Schreibweisen, Codes, Wertelisten.
CAFM lebt von Integrationen. Damit das nicht zu einem Dauerkrieg wird, braucht es eine Domänenlogik: Wer ist führend?
| Datendomäne | Typisch führendes System | CAFM-Rolle | Harmonisierungsschlüssel |
|---|---|---|---|
| Kostenstellen/Org | ERP/HR | konsumiert | Kostenstellen-ID / Org-ID |
| Kreditoren | ERP | konsumiert | Kreditor-ID |
| Gebäude/Räume | CAD/BIM + FM-Fachhoheit | führend oder Co-Führend | Gebäude-ID, Raumcode, ggf. GUID |
| Assets technisch | CAFM/CMMS | führend | Asset-ID, Seriennr, techn. Platz |
| Verträge (kaufmännisch) | ERP/Einkauf | Co-Führend | Vertrags-ID, Objektbezug |
Ein Fehler vieler Projekte: Man prüft nur Datentypen, nicht Fachlogik. Beides ist nötig.
| Regeltyp | Beispiel | Prüfmechanik | Typische Fehlerquelle |
|---|---|---|---|
| Technische Validität | Datumsfeld ISO-Format | Schema-/Parserprüfung | Excel-Freiformate |
| Pflichtfelder | Raum hat Gebäudezuordnung | Nullcheck | unvollständige Listen |
| Wertebereich | Fläche > 0 | Bereichsprüfung | falsche Einheiten |
| Referenzintegrität | Asset verweist auf existierenden Raum | Foreign-Key-Check (logisch) | fehlende Räume im Import |
| Fachlogik | Wartungsintervall plausibel | Regelwerk je Gewerk | historisch gewachsene Intervalle |
| Summen-/Abgleich | NRF = NUF+TF+VF | Aggregation | gemischte Flächenstandards |
Datenanreicherung und Klassifikation
Bereinigung allein macht Daten „sauber“, aber nicht automatisch steuerungsfähig. Steuerungsfähigkeit entsteht durch Klassifikation.
Typische Anreicherungen im FM:
Flächenarten/Flächengruppen (z. B. nach DIN 277-Logik oder FM-Flächenlogik)
Kostengruppenlogik für Bau-/Maßnahmenkosten nach DIN 276 (z. B. KG 300/400 etc.)
Gewerke, Asset-Klassen, Kritikalität, Betreiberpflicht-Kategorien
Servicelevels, Reinigungsarten, Wartungsstrategien (preventive/condition-based)
Flächenarten/Flächengruppen (z. B. nach DIN 277-Logik oder FM-Flächenlogik)
Die Norm strukturiert Kosten im Bauwesen in Kostengruppen (z. B. Grundstück, Vorbereitende Maßnahmen, Baukonstruktion, Technische Anlagen usw.) und wird in der Praxis für Kostenplanung/-kontrolle genutzt; die Grundsystematik ist in Fachquellen gut zusammengefasst.
Die Verbindung zur Fläche ist nicht akademisch: Flächen (z. B. nach DIN 277) sind häufig Bezugsgrößen für Kostenkennwerte und Vergleichbarkeit.
ETL-Architektur und Transformationslogik: Robust statt „Skript-Sammlung“
In CAFM-Projekten wird Datenmigration gerne als einmalige Aktion behandelt. Realistisch braucht es jedoch mehrere Iterationen: Testmigrationen, Korrekturen, erneute Läufe. Dafür ist eine wiederholbare ETL-Architektur entscheidend.
Bewährt ist das Staging-Prinzip
Rohdaten werden zunächst in einen Staging-Bereich überführt, dort profiliert, bereinigt und transformiert, bevor sie ins Zielsystem geladen werden. In ETL-Disziplinen ist diese Struktur gut etabliert; Best-Practice-Sammlungen warnen explizit vor „Spaghetti-ETL“ und beschreiben systematische Subsysteme für Extraktion, Qualitätsbehandlung, Lieferung und Betrieb.
Beispielhafter ETL-Aufbau (vereinfachtes Zielbild)
| Layer | Zweck | Typische Artefakte | Governance |
|---|---|---|---|
| Source Extract | unveränderte Übernahme aus Quellen | CSV/SQL-Dumps, API-Snapshots | versionsicher ablegen |
| Staging Raw | Rohdaten „as is“ | Tabellen 1:1 | Zugriff restriktiv |
| Staging Clean | Bereinigte, normalisierte Daten | bereinigte Tabellen, Dublettenauflösung | Regelwerk versioniert |
| Conformed Layer | harmonisierte, domänenweit einheitliche Sicht | Mappingtabellen, Golden Records | Data Owner-Abnahme |
| Load Packages | Importpakete im CAFM-Format | Import-Templates, JSON/XML | Load-Protokolle |
| Reconciliation | Abgleich Quelle ↔ Ziel | Count-Checks, Summen, Stichproben | Abnahmegrundlage |
Transformationsregeln dokumentieren (Mapping-Tabelle als Pflichtartefakt)
| Quellfeld | Quelle | Zielfeld (CAFM) | Transformation | Regel-ID | Owner | Status |
|---|---|---|---|---|---|---|
| Raumname | CAD-Raumliste | Raum.Bezeichnung | Trim, Sonderzeichen normieren | TR-012 | FM | freigegeben |
| Fläche_m2 | Excel | Raum.NRF | Einheit m² erzwingen, >0 | TR-021 | FM | freigegeben |
| Kostenstelle | ERP | Org.Kostenstelle | 1:1, Validierung gegen ERP-Liste | TR-033 | Finance | in Prüfung |
| Gewerk | Altsystem | Asset.Gewerk | Mapping via Tabelle G-Map | TR-041 | Technik | freigegeben |
Eine belastbare Datenmigration wird typischerweise in mehreren Wellen durchgeführt:
Pilot (kleiner Scope, hohe Lernkurve)
Systemtest (breiter, aber nicht final)
Generalprobe (nahezu produktionsgleich)
Go-Live-Load (finaler Cutover)
Als Qualitäts-/Abnahmeinstrument taugt ein klarer Kriterienkatalog:
| Abnahmekriterium | Messmethode | Zielwert (Beispiel) | Nachweis |
|---|---|---|---|
| Vollständigkeit Pflichtfelder | Nullquote je Domäne | ≥ 98 % | Profiling-Report |
| Dublettenfreiheit kritischer Schlüssel | Duplicate Check | 0 Dubletten | Dublettenreport |
| Referenzintegrität | Join-Checks | ≥ 99,5 % | Integrity-Report |
| Summenabgleich Flächen | Aggregationsvergleich | Abweichung ≤ 0,5 % | Reconciliation |
| Stichproben fachlich plausibel | Review mit Data Ownern | bestanden | Protokoll |
Für technische Datenvalidierung existieren in Migrationswerkzeugen etablierte Muster
Quell- und Zieldaten werden validiert; bei Abweichungen werden Mismatch-Fälle protokolliert und können gezielt korrigiert werden. Das Prinzip ist übertragbar: Mismatch erkennen, gezielt korrigieren, erneut validieren.)
BIM zu CAFM: COBie als Brücke (wenn verfügbar)
Wenn Neubau/Revitalisierung im Spiel ist, kommt die Frage: „Wie bekommen wir Modell- und Assetdaten sauber in den Betrieb?“ COBie adressiert genau das: Es organisiert die Daten, die ein Betreiber typischerweise braucht, und kann auch als Tabellenformat bereitgestellt werden.
Praktische Konsequenz für Datenaufbereitung:
FM-Datenanforderungen früh definieren (welche Attribute sind „must have“?)
COBie/IFC-Daten in Staging übernehmen
Schlüsselstrategie festlegen (GUIDs, Raumcodes, Asset-IDs)
Abgleich mit realer Inventur (Modell ≠ Realität, insbesondere nach Umbauten)
Flächen und Räume
Wer Flächen nicht standardisiert, bekommt später endlose Diskussionen über Reportabweichungen. DIN 277 strukturiert Flächenbegriffe (z. B. NRF als Summe aus Nutzungs‑, Technik‑ und Verkehrsflächen) und ist als Referenz für eindeutige Flächenlogik verbreitet.
EN 15221‑6 betont den Nutzen eines einheitlichen FM-Flächenmessrahmens und begründet ihn u. a. mit erheblichen Abweichungen zwischen Messansätzen.
Datenbereinigung ist nie allein IT-Aufgabe. In der Praxis braucht es mindestens:
Data Owner: entscheidet fachlich, was „richtig“ ist, und nimmt ab
Data Steward: organisiert Regeln, prüft Qualität, treibt Korrekturen
ETL/Integration: setzt technische Pipelines, Regeln, Protokolle um
CAFM-Fachadmin: kennt Zielmodell, Importlogik, Systemrestriktionen
Eine sinnvolle RACI-Matrix für die Leistung:
| Aktivität | Data Owner | Data Steward | IT/ETL | CAFM-Admin | Projektleitung |
|---|---|---|---|---|---|
| Dateninventur | C | R | C | C | A |
| Zielmodell-Festlegung | A | R | C | R | A |
| Mapping/Transformationsregeln | A | R | R | R | C |
| Dublettenentscheidung | A | R | C | C | C |
| Testmigration | C | R | R | R | A |
| Abnahme | A | R | C | C | A |
| Go-Live-Datenfreeze | A | R | C | C | A |
| Post-Go-Live-Qualitätsmonitoring | A | R | C | C | A |
Typische Fehlerquellen und Risiken – und wie man sie sauber mitigiert
| Risiko | Ursache | Auswirkung | Gegenmaßnahme |
|---|---|---|---|
| „Wir migrieren später noch mal“ wird Dauerzustand | keine wiederholbare ETL | Go-Live verschiebt sich, Daten driftet | Staging+Regelversionierung von Anfang an |
| Flächenreports stimmen nicht | gemischte Standards | Streit, Vertrauensverlust | Standard festlegen, Flagging, Abgleichregeln |
| Dubletten bleiben bestehen | fehlende Schlüsselstrategie | doppelte Wartungen, falsche Summen | Master-/Alias-Regeln, Golden Record |
| Fachbereiche liefern nicht zu | keine Data Owner-Rolle | IT entscheidet „fachlich“ | Data Owner benennen, Abnahme ritualisieren |
| Integrationen scheitern | unterschiedliche IDs | Schnittstellen instabil | Domänenführerschaft + Mappingtabellen |
| Dokumente „verwaisen“ | keine Metadaten | Nachweise nicht auffindbar | Metadatenmodell, Objektbezug, Mindestattribute |
Ein sauberer Leistungsabschluss ist nicht „Daten sind drin“, sondern ein Satz prüfbarer Artefakte:
| Deliverable | Inhalt | Zweck |
|---|---|---|
| Dateninventur | Quellen, Owner, Qualität, Volumen | Transparenz/Planung |
| Ziel-Datenmodell-Guide | Objekt-/Asset-/Flächenlogik, Pflichtfelder | Referenz für alle |
| Mapping & Transformationskatalog | Regeln, Versionen, Owner, Status | Wiederholbarkeit |
| Datenqualitätsbericht | Kennzahlen je Domäne, Fehlerlisten | Steuerung & Abnahme |
| Dublettenentscheidungen | Master/Archiv-Regeln, Protokolle | Nachvollziehbarkeit |
| Testmigrationsprotokolle | Läufe, Ergebnisse, Abweichungen | Abnahmebasis |
| Reconciliation-Report | Counts, Summen, Stichproben | Sicherheit vor Go-Live |
| Betriebsübergabe „Data Quality“ | Monitoring, Rollen, Pflegeprozesse | Nachhaltigkeit |
Nachhaltige Sicherung nach Go-Live: Datenqualität als Betriebsprozess
Nach Go-Live endet Datenqualität nicht – sie beginnt im Alltag erst richtig. ISO/IEC 25012 ist explizit dafür gedacht, Qualitätsanforderungen zu definieren und Qualitätsbewertungen/Verbesserungen zu planen; das passt zum Übergang in den Regelbetrieb.
Bewährt hat sich ein schlanker Regelbetrieb:
| Mechanismus | Frequenz | Inhalt | Verantwortlich |
|---|---|---|---|
| DQ-Report (Pflichtfelder, Dubletten, Integrität) | monatlich | KPI + Top-Fehlerlisten | Data Steward |
| Rezertifizierung kritischer Stammdaten | quartalsweise | Gebäudestruktur, Asset-Kritikalitäten | Data Owner |
| Change-Prozess für Wertelisten | laufend | Gewerke, Klassifikationen | CAFM-Admin + Owner |
| Datenfreeze-Regeln bei Releases | je Release | Import-/Exportregeln stabil halten | IT/CAFM |
Anspruch
Wer Datenbereinigung und Datenaufbereitung sauber aufsetzt, kauft sich nicht „einmalig Aufwand“, sondern reduziert dauerhaft Betriebskosten, Fehlerbearbeitung und Diskussionen. Die zentrale Idee ist dabei nüchtern: erst Klarheit über Quellen und Zielmodell, dann Regeln, dann wiederholbare ETL, dann Abnahme – und danach Governance, damit es nicht wieder zerfällt.
