Die Lösung deckt verschiedene Phasen ab, darunter Dateneinspeisung, Datenvalidierung und die Verarbeitung von SCD-Daten (Slowly Changing Dimensions). Sie kombiniert mehrere Daten-Frameworks, wie z. B. Generic Data Ingestion, Data Validation und SCD Type 1 und Type 2, die leicht konfigurierbar, anpassbar und für jede Microsoft Azure-Plattform einsetzbar sind.
Die vDataAid-Lösung wird mit Azure Data Factory für die Dateneinspeisung und Spark Notebook für die Datenvalidierung entwickelt. Die Azure-Datenintegrationspipeline ist eine generische Pipeline für die Dateneinspeisung und -validierung, die vollständig durch Metadaten gesteuert wird.
Beispielsweise besteht der erste Schritt bei jeder Datenquellenkonfiguration darin, die Einspeisungs-Details wie Quell- und Zielpfade, die einzuspeisenden Objekte usw. in vorkonfigurierten Metadatentabellen zu erfassen. Anschließend verwenden wir eine einzige generische Pipeline für die Einspeisung, Validierung und Transformation (SCD) aller Objekte, ohne mehrere Pipelines erstellen und pflegen zu müssen.