Bei einer typischen/traditionellen ETL- oder Data-Warehouse-Lösung müssen Sie Daten aus verschiedenen Quellsystemen in Ihren Data Lake einspeisen und sie bereinigen, bevor sie von nachgelagerten Anwendungen weiterverarbeitet werden können. Darüber hinaus wird im aktuellen Szenario die Datenmigration von On-Premise-Systemen in die Cloud immer beliebter.
Virtusa als strategischer Geschäftspartner begann den Prozess mit der Migration des bestehenden Datenerfassungs-Frameworks des Kunden unter Verwendung von Hadoop-Modernisierungstechniken auf AWS. Darüber hinaus verwendeten wir Talend zum Extrahieren, Transformieren und Laden (ETL) und nutzten dabei die Serverless Data Lake Framework-Lösungen des Kunden.
Im Anschluss daran entstand die Idee, ein metadatengesteuertes Datenintegrations-Framework einzusetzen, und wir entwickelten den Entwurf für die Aufnahme von Daten aus beliebigen strukturierten Datenquellen in ein beliebiges Ziel durch Hinzufügen von Metadateninformationen in eine Metadatendatei/Tabelle. Dieses Framework kann Daten aus beliebigen strukturierten Datenquellensystemen (RDBMS wie Oracle, Local File, FTP Server Pulls usw.) aufnehmen und Daten an einem beliebigen Zielort (AWS S3, Azure ADLS, RDS usw.) speichern.
Dieser Beschleuniger unterstützt die Schemaentwicklung. Jede Änderung des Schemas eines bestehenden Feeds hat keine Auswirkungen auf das Lösungsframework, wodurch die Notwendigkeit einer Codeänderung reduziert wird. Dies spart Zeit beim Erstellen und Testen und eine Menge Aufwand, da die Notwendigkeit einer Auswirkungsanalyse von Schemaänderungen reduziert wird.