28 Interviewfragen und -antworten für ETL-Tests

28 Interviewfragen und -antworten für ETL-Tests
MIN
03 Juni 2024

ETL-Tests werden verwendet, um die Korrektheit der Datenmigration von der Quelldatenbank in die Zieldatenbank sowie die Überprüfung der Transformationsregeln zu verifizieren.

In diesem Artikel haben wir eine Liste mit häufig gestellten Fragen zu ETL-Testing-Interviews zusammengestellt.

Fragen und Antworten zum ETL-Test

Frage.1. Was ist ETL?

A: Die Abkürzung ETL steht für Extrahieren, Transformieren und Laden. Diese drei Funktionen sind Datenbankfunktionen und werden an Daten ausgeführt, um sie aus einer oder mehreren Quellen (Datenbank) in eine andere (Datenbank) zu ziehen.

Frage.2. Was ist der ETL-Prozess?

A: Der ETL-Prozess besteht aus drei Schritten:

  • Extraktion – In diesem Schritt werden die Daten aus einer oder mehreren Quelldatenbanken extrahiert.
  • Transformation – In diesem zweiten Schritt werden die Daten in ein für die Zieldatenbank geeignetes Format umgewandelt.
  • Laden – die transformierten Daten werden schließlich in die Zieldatenbank geladen.

Frage.3. Was sind ETL-Tests? Oder wie wichtig ist das ETL-Testen?

Antwort: ETL-Tests werden durchgeführt, um die Genauigkeit der in die Zieldatenbank geladenen Daten zu gewährleisten. Es stellt auch sicher, dass die erforderlichen Datenumwandlungsregeln befolgt werden und dass während des ETL-Prozesses keine Daten verloren gehen.

Frage. 4. Was sind die verschiedenen Herausforderungen bei ETL-Tests?

A: Die verschiedenen Herausforderungen bei ETL-Tests sind:

  • Unverfügbarkeit von Testdaten, da ETL-Tests große Mengen an Testdaten erfordern.
  • Mangel an qualifizierten Ressourcen, da ETL-Tests komplexe SQL-Abfragen erfordern.
  • Die Entwicklung von Testfällen ist schwierig, da ETL-Tests die Arbeit mit großen Datenmengen erfordern.
  • Die verfügbaren Testdaten decken möglicherweise nicht alle möglichen Szenarien ab.
  • Datenverlust während der ETL-Tests.

Frage.5. Was sind die vier Arten von ETL-Tests? Erläutern Sie kurz jedes dieser Elemente.

Antwort: Dies ist eine der am häufigsten gestellten Fragen in einem ETL-Testgespräch.

  • Testen eines neuen Data Warehouse – Bei dieser Art von Test wird ein neues Data Warehouse von Grund auf neu erstellt. Die Eingabedaten erhalten Sie vom Kunden.
  • Migrationstests – Diese Art von Tests ist erforderlich, wenn Daten von einer alten Datenbank in eine neue Datenbank migriert werden.
  • Änderungsanfrage – Bei dieser Art von Test werden Daten aus verschiedenen Quellen abgerufen und in eine bestehende Datenbank geladen.
  • Testen von Berichten – Beim Testen von Berichten werden die Richtigkeit der Daten, die Zugriffsrechte und das Layout der im Data Warehouse-System erstellten Berichte geprüft.

Frage.6. Was ist das Star-Schema?

A: Ein Sternschema ist ein mehrdimensionales Schema, das zur Modellierung von Data-Warehousing-Systemen verwendet wird. Sie enthält eine oder mehrere Faktentabellen und mehrere Dimensionstabellen. Die Faktentabelle befindet sich in der Mitte und es sind mehrere Dimensionstabellen mit ihr verbunden, die die Form eines Sterns haben.

Frage.7. Was ist das Snowflake-Schema?

Antwort Das Schneeflockenschema ist ein mehrdimensionales Schema, das zur Modellierung von Data-Warehousing-Systemen verwendet wird. Ein Snowflake-Schema enthält eine oder mehrere Faktentabellen, mehrere Dimensionstabellen und Subdimensionstabellen. Es ist eine Erweiterung des Sternmusters und ähnelt der Form einer Schneeflocke.

Frage.8. Was ist eine Faktentabelle?

Antwort: Die Faktentabelle im Dimensionsmodell enthält quantitative Informationen über Fakten, die für das Geschäft relevant sind. Faktentabellen werden für Analysen verwendet und sind oft denormalisiert.

Die Faktentabelle besteht aus zwei Arten von Spalten: den „Fremdschlüssel“-Spalten und den „Measures“-Spalten. Die ‚Foreign Key‘-Spalten werden verwendet, um auf die Dimensionstabellen zu verweisen und die ‚Measures‘-Spalten enthalten die zu analysierenden Daten.

Einige Beispiele für Fakten sind die Anzahl der verkauften Produkte, die Anzahl der eingegangenen Bestellungen, usw.

Frage.9. Was sind die drei Arten von Fakten?

Antwort: Die drei Arten von Fakten sind:

  • Additiv – additive Fakten sind Fakten, bei denen jede Dimension summiert werden kann.
  • Semiadditiv – Semiadditive Fakten sind Fakten, für die einige Dimensionen summiert werden können, aber nicht alle.
  • Nicht-additiv – Nicht-additive Fakten sind Fakten, bei denen keine der Dimensionen addiert werden kann.

Frage. 10. Was ist eine Transaktionsfaktentabelle?

Antwort: Die transaktionale Faktentabelle ist eine der drei Arten von Faktentabellen und die grundlegendste. In dieser Art von Faktentabelle wird jedes Ereignis nur einmal gespeichert und enthält die Daten der untersten Ebene. Außerdem ist die Anzahl der Zeilen in dieser Faktentabelle ähnlich wie die Anzahl der Zeilen in der Quelltabelle.

Frage.11. Was ist eine Periodic Snapshot Fact Table?

A: In dieser Art von Faktentabelle kann ein Ereignis mehrfach gespeichert werden und erfasst den Zustand der Fakten in vordefinierten Zeiträumen.

Frage.12. Was ist eine kumulative oder kumulative Snapshot-Faktentabelle?

Antwort: Die kumulierte Faktentabelle ist die anspruchsvollste aller Faktentabellentypen und kann verwendet werden, wenn ein Geschäftsprozess einen eindeutigen Anfang und ein eindeutiges Ende hat.

Frage.13. Was bedeutet Grain im Zusammenhang mit einer Faktentabelle?

A: „Grain“ in der Faktentabelle steht für die Detailstufe einer einzelnen Zeile.

Frage. 14. Was ist eine Faktentabelle ohne Fakten?

Antwort: Eine Faktentabelle ohne Fakten enthält keine Messungen oder Fakten. Außerdem enthält es nur „Fremdschlüssel“-Spalten, um die Beziehung zwischen den Dimensionen herzustellen.

Frage.15. Was ist eine Dimensionstabelle?

Antwort: Eine Dimensionstabelle ist eine der beiden Arten von Tabellen, die bei der Dimensionsmodellierung verwendet werden, die andere ist eine Faktentabelle. Die Dimensionstabelle beschreibt die Dimensionen oder beschreibenden Kriterien der Objekte in der Faktentabelle, z.B. Dimension Ort kann Straße, Stadt, Postleitzahl, Bundesland usw. enthalten.

Frage.16. Nennen Sie einige Arten von Dimensionen.

Antwort: Die folgenden Arten von Dimensionen sind:

  • Langsam wechselnde Dimension
  • Konforme Dimension
  • Schrott-Dimension/Dreck-Dimension
  • De-generierte Dimension
  • Brücke Dimension

Frage .17. Was ist SCD?

A: SCD steht für Slowly Changing Dimensions. Dies ist eine Art von Dimension. SCDs sind Dimensionen, deren Attribute sich nicht regelmäßig, sondern im Laufe der Zeit ändern.

Zum Beispiel – Kundendimension. Die Attribute der Kundendimension, wie Adresse und Kundenname, ändern sich nicht häufig.

Frage.18. Welche Arten von SCD gibt es? Erläutern Sie kurz jedes dieser Elemente.

Antwort: Arten von SCD:

  • Typ 0 – Bei diesem Typ ändern sich die Attribute der Dimension nie, z.B. DoB – Geburtsdatum.
  • Typ 1 – Bei dieser Art von SCD überschreiben die neuen Informationen die alten Daten und es werden keine historischen Änderungen nachverfolgt. Zum Beispiel. das Attribut „Stadt“ in der Dimension Kunde ändern, wenn der Kunde die Stadt ändert.
  • Typ 2 – Bei dieser Art von SCD werden neue Informationen zu einer neuen Zeile hinzugefügt und die Verfolgung historischer Änderungen wird beibehalten. Dem neuen Datensatz wird ein neuer Primärschlüssel zugewiesen. z.B.. in dem obigen Beispiel der Änderung der Stadt wird ein neuer Datensatz hinzugefügt, um eine neue Stadt hinzuzufügen.
  • Typ 3 – Bei diesem Typ wird nicht wie bei Typ 2 eine neue Zeile erstellt, sondern eine neue Spalte hinzugefügt, z.B. im obigen Beispiel einer Stadtänderung werden zwei zusätzliche Spalten, „Neue Stadt“ und „Jahr“ oder „Datum“, hinzugefügt.
  • Typ 4 – Bei dieser Art von SCD wird eine separate „Verlaufstabelle“ oder Mini-Dimension erstellt, um Änderungen zu verfolgen. Die aktuellen Attributwerte werden in der Dimensionstabelle angezeigt, und alle Änderungen oder alten Werte werden in der Verlaufstabelle angezeigt.
  • Typ 5 – Bei diesem Typ wird eine Minidimension vom Typ 4 verwendet und eine Referenz vom Typ 1, um die Minidimensionstabelle in der Basis-Bemaßungstabelle zu referenzieren.
  • Typ 6 – Bei diesem Typ von SCD wird eine Kombination der Typen 1, 2 und 3 verwendet. Sie ist auch als „hybride“ Methode bekannt.

Frage. 19. Was ist die konforme Dimension?

Antwort: Diese Arten von Dimensionen können an mehreren Stellen mit unterschiedlichen Faktentabellen entweder in einer einzigen Datenbank oder in mehreren Data Marts verwendet werden.

Einige Beispiele für konforme Dimensionen sind die Kundendimension, die Produktdimension, die Zeitdimension, usw. z.B.. Die Produktdimension kann verwendet werden, um die Anzahl der verkauften Produkte und den erzielten Umsatz zu berechnen.

Frage 20. Was ist die Junk-Dimension oder Schmutzige Dimension?

Antwort: Wie der Name schon sagt, enthalten diese Dimensionen Junk-Attribute oder zufällige Attribute, die zu keiner bestimmten Dimension gehören. Solche Dimensionen werden erstellt, damit viele Fremdschlüssel in der Faktentabelle vermieden werden können.

Frage. 21. Was ist die Degenerierte Dimension?

Antwort Eine degenerierte Dimension ist eine Dimension, die keine eigene Dimension hat, sondern Teil einer Faktentabelle ist, z.B. die Bon- oder Rechnungsnummer hat keine eigene Dimensionstabelle. Da sie jedoch aus geschäftlicher Sicht sehr wichtig ist, wird sie in einer Faktentabelle gespeichert.

Frage.22. Was ist ein Data Mart?

A: Ein Data Mart ist eine Datenbank, die Daten enthält, die in einem der Segmente eines Data Warehouse gespeichert sind. Mit anderen Worten: Ein Data Mart ist eine Teilmenge eines Data Warehouse. Diese Data Warehouse-Segmente gehören in der Regel zu einzelnen Unternehmensbereichen wie Finanzen, Marketing, Vertrieb usw.

Frage. 23. Was ist ein BUS-Diagramm?

Antwort: Das BUS-Schema enthält konforme Dimensionen. Mit anderen Worten: Es wird verwendet, um die gemeinsamen Dimensionen aller Data Warehouses in einem Unternehmen zu identifizieren.

Frage. 24. Was sind die drei Ebenen des ETL-Zyklus? Erklären Sie sie kurz.

Antwort: Die drei Schichten des ETL-Zyklus sind.

  • Staging Layer – wird auch als Quellebene bezeichnet. Diese Ebene wird verwendet, um Daten aus verschiedenen Datenquellen zu speichern.
  • Integrationsschicht – Nachdem die Quelldaten transformiert wurden, werden sie in der Integrationsschicht gespeichert. In dieser Schicht werden die Daten in einer Datenbank gespeichert.
  • Zugriffsebene – auch als Dimensionsebene bekannt. Es ist die Front-End-Schicht, die vom Endbenutzer zur Erstellung von Berichten verwendet wird.

Frage. 25. Was ist ein Bereitstellungsraum?

A: Ein Staging-Bereich wird auch als „Landezone“ bezeichnet, in der Daten aus verschiedenen Quellen vorübergehend gespeichert werden. Der Staging-Bereich ist wichtig, da alle Daten in einem Bereich verfügbar sein sollten, bevor sie in das Data Warehouse oder Data Mart geladen werden. Es wird verwendet, um die Daten zu speichern und zu bereinigen, bevor sie in die Zieldatenbank übertragen werden.

Frage. 26. Was ist ODS?

A: ODS steht für Operational Data Store. Es wird für die operative Berichterstattung über Daten aus verschiedenen Data Warehouses verwendet. Sie enthält auch eine Momentaufnahme der neuesten Daten aus diesen Quellen.

Frage.27. Was sind aktive und passive Transformationen? Erklären Sie sie kurz.

Antwort:

  • Aktive Transformation – Bei dieser Art der Transformation ändert sich die Anzahl der Zeilen, wenn Daten von der Quell- in die Zieldatenbank übertragen werden.
  • Passive Transformation – Bei dieser Art der Transformation ändert sich die Anzahl der Zeilen nicht, wenn die Daten in die Zieldatenbank übertragen werden.

Frage. 28. Was ist Datenbereinigung?

A: Datenbereinigung ist der Prozess des Entfernens oder Löschens unerwünschter Daten aus einem Data Warehouse. Dies geschieht normalerweise, um Speicherplatz in der Datenbank freizugeben.