28 questions et réponses pour les tests ETL

Le test ETL est utilisé pour vérifier l’exactitude de la migration des données de la base de données source vers la base de données cible, ainsi que la vérification des règles de transformation.
Dans cet article, nous avons compilé une liste de questions fréquemment posées lors des entretiens d’embauche pour les tests ETL.
Questions et réponses sur les tests ETL
Question.1. Qu’est-ce que l’ETL ?
R : L’abréviation ETL signifie Extract, Transform and Load (extraction, transformation et chargement). Ces trois fonctions sont des fonctions de base de données et sont exécutées sur des données afin de les faire passer d’une ou plusieurs sources (base de données) à une autre (base de données).
Question.2. Qu’est-ce que le processus ETL ?
R : Le processus ETL comporte trois étapes :
- Extraction – Au cours de cette étape, les données sont extraites d’une ou de plusieurs bases de données sources.
- Transformation – Dans cette deuxième étape, les données sont transformées dans un format adapté à la base de données cible.
- Chargement – les données transformées sont finalement chargées dans la base de données cible.
Question.3. Qu’est-ce qu’un test ETL ? Ou quelle est l’importance des tests ETL ?
Réponse : Les tests ETL sont effectués pour garantir l’exactitude des données chargées dans la base de données cible. Il garantit également que les règles de transformation des données sont respectées et qu’aucune donnée n’est perdue au cours du processus ETL.
Question. 4. Quels sont les différents défis liés aux tests ETL ?
R : Les différents défis des tests ETL sont les suivants :
- Indisponibilité des données de test, car les tests ETL nécessitent de grandes quantités de données de test.
- Manque de ressources qualifiées car les tests ETL nécessitent des requêtes SQL complexes.
- La conception des cas de test est difficile car les tests ETL nécessitent de travailler avec de grands volumes de données.
- Les données d’essai disponibles peuvent ne pas couvrir tous les scénarios possibles.
- Perte de données pendant les tests ETL.
Question.5. Quels sont les quatre types de tests ETL ? Expliquez brièvement chacun d’entre eux.
Réponse : C’est l’une des questions les plus fréquemment posées lors d’un entretien de test ETL.
- Test d’un nouvel entrepôt de données – Dans ce type de test, un nouvel entrepôt de données est créé à partir de zéro. Les données d’entrée sont obtenues auprès du client.
- Test de migration – Ce type de test est nécessaire lorsque les données sont transférées d’une ancienne base de données vers une nouvelle.
- Demande de changement – Dans ce type de test, les données sont extraites de diverses sources et chargées dans une base de données existante.
- Test des rapports – Le test des rapports permet de vérifier l’exactitude des données, les droits d’accès et la présentation des rapports créés dans le système d’entrepôt de données.
Question.6. Qu’est-ce que le Star Schema ?
R : Un schéma en étoile est un schéma multidimensionnel utilisé pour modéliser les systèmes d’entreposage de données. Contient une ou plusieurs tables de faits et plusieurs tables de dimensions. Le tableau des faits se trouve au centre et plusieurs tableaux de dimensions lui sont associés, qui ressemblent à la forme d’une étoile.
Question.7. Qu’est-ce que le schéma du flocon de neige ?
Réponse Le schéma en flocon de neige est un schéma multidimensionnel utilisé pour modéliser les systèmes d’entreposage de données. Un schéma en flocon de neige contient une ou plusieurs tables de faits, plusieurs tables de dimensions et des tables de sous-dimensions. Il s’agit d’une extension du motif en étoile qui ressemble à la forme d’un flocon de neige.
Question.8. Qu’est-ce qu’un tableau de données ?
Réponse : La table des faits du modèle dimensionnel contient des informations quantitatives sur les faits pertinents pour l’entreprise. Les tables de faits sont utilisées pour l’analyse et sont souvent dénormalisées.
La table des faits se compose de deux types de colonnes : les colonnes « clés étrangères » et les colonnes « mesures ». Les colonnes « Foreign Key » sont utilisées pour faire référence aux tables de dimension et les colonnes « Measures » contiennent les données à analyser.
Le nombre de produits vendus, le nombre de commandes passées, etc. sont des exemples de faits.
Question.9. Quels sont les trois types de faits ?
Réponse : Les trois types de faits sont les suivants :
- Additif – les faits additifs sont des faits pour lesquels chaque dimension peut être additionnée.
- Semiadditifs – Les faits semiadditifs sont des faits pour lesquels certaines dimensions peuvent être additionnées, mais pas toutes.
- Non additifs – Les faits non additifs sont des faits pour lesquels aucune des dimensions ne peut être ajoutée.
Question. 10. Qu’est-ce qu’une table de faits de transaction ?
Réponse : La table des faits transactionnelle est l’un des trois types de table des faits et le plus élémentaire. Dans ce type de table de faits, chaque événement n’est stocké qu’une seule fois et contient les données de niveau le plus bas. De plus, le nombre de lignes dans cette table de faits est similaire au nombre de lignes dans la table source.
Question.11. Qu’est-ce qu’un tableau périodique des faits ?
R : Dans ce type de table des faits, un événement peut être enregistré plusieurs fois et permet de saisir l’état des faits au cours de périodes prédéfinies.
Question.12. Qu’est-ce qu’un tableau de faits cumulatifs ou cumulatifs instantanés ?
Réponse : La table de faits accumulés est la plus exigeante de tous les types de tables de faits et peut être utilisée lorsqu’un processus d’entreprise a un début et une fin définis.
Question.13. Qu’est-ce que Grain dans le contexte d’un tableau de faits ?
R : Le « grain » dans la table des faits représente le niveau de détail pour une seule ligne.
Question. 14. Qu’est-ce qu’un tableau de faits sans faits ?
Réponse : Une table de faits sans faits ne contient aucune mesure ni aucun fait. Il ne contient également que des colonnes de « clés étrangères » pour établir la relation entre les dimensions.
Question.15. Qu’est-ce qu’un tableau de dimensions ?
Réponse : Une table de dimension est l’un des deux types de tables utilisés dans la modélisation dimensionnelle, l’autre étant une table de faits. La table des dimensions décrit les dimensions ou les critères descriptifs des objets de la table des faits, par exemple dimension L’emplacement peut inclure la rue, la ville, le code postal, l’état, etc.
Question.16. Citez quelques types de dimensions.
Réponse : Les types de dimensions suivants sont :
- Une dimension qui change lentement
- Dimension conforme
- Junk Dimension/Dirty Dimension
- Dimension dégénérée
- Dimension du pont
Question .17. Qu’est-ce que le SCD ?
R : SCD signifie Slowly Changing Dimensions (changement lent des dimensions). Il s’agit d’un type de dimension. Les DSC sont des dimensions dont les attributs ne changent pas régulièrement mais évoluent dans le temps.
Par exemple, la dimension client. Les attributs de la dimension client, tels que l’adresse et le nom du client, ne changent pas fréquemment.
Question.18. Quels sont les différents types de SCD ? Expliquez brièvement chacun d’entre eux.
Réponse : Les types de SCD :
- Type 0 – Dans ce type, les attributs de la dimension ne changent jamais, par exemple DoB – Date de naissance.
- Type 1 – Dans ce type de DSC, les nouvelles informations écrasent les anciennes données et aucun changement historique n’est suivi. Par exemple. modifier l’attribut « City » dans la dimension « Customer » si le client change de ville.
- Type 2 – Dans ce type de DSC, les nouvelles informations sont ajoutées à une nouvelle ligne et le suivi des modifications historiques est maintenu. Une nouvelle clé primaire est attribuée au nouvel enregistrement. par exemple dans l’exemple ci-dessus de changement de ville, un nouvel enregistrement est ajouté pour ajouter une nouvelle ville.
- Type 3 – Dans ce type, au lieu de créer une nouvelle ligne comme dans le type 2, une nouvelle colonne est ajoutée, par exemple dans l’exemple ci-dessus d’un changement de ville, deux colonnes supplémentaires, « Nouvelle ville » et « Année » ou « Date », sont ajoutées.
- Type 4 – Dans ce type de DSC, une « table d’historique » ou une mini-dimension distincte est créée pour suivre les changements. Les valeurs actuelles des attributs sont affichées dans la table des dimensions, et toute modification ou ancienne valeur est affichée dans la table de l’historique.
- Type 5 – Dans ce type, une minidimension de type 4 est utilisée et une référence de type 1 est utilisée pour référencer la table de minidimension dans la table de dimension de base.
- Type 6 – Dans ce type de DSC, une combinaison des types 1, 2 et 3 est utilisée. Elle est également connue sous le nom de méthode « hybride ».
Question. 19. Qu’est-ce que la dimension conforme ?
Réponse : Ces types de dimensions peuvent être utilisés à plusieurs endroits avec différentes tables de faits, soit dans une seule base de données, soit dans plusieurs data marts.
Quelques exemples de dimensions conformes sont la dimension client, la dimension produit, la dimension temps, etc. par exemple La dimension du produit peut être utilisée pour calculer le nombre de produits vendus et le revenu généré.
Question 20. Qu’est-ce que la dimension « poubelle » ou « sale » ?
Réponse : Comme leur nom l’indique, ces dimensions contiennent des attributs inutiles ou aléatoires qui n’appartiennent à aucune dimension particulière. De telles dimensions sont créées afin d’éviter de nombreuses clés étrangères dans la table des faits.
Question. 21. Qu’est-ce que la dimension dégénérée ?
Réponse Une dimension dégénérée est une dimension qui n’a pas de dimension distincte mais qui fait partie d’une table de faits, par ex. le numéro de reçu ou de facture n’a pas de tableau de dimensions distinct. Cependant, comme il est très important d’un point de vue commercial, il est stocké dans une table de faits.
Question.22. Qu’est-ce que le Data Mart ?
R : Un data mart est une base de données qui contient des données stockées dans l’un des segments d’un entrepôt de données. En d’autres termes, un data mart est un sous-ensemble d’un entrepôt de données. Ces segments d’entrepôt de données appartiennent généralement à des domaines d’activité organisationnels individuels tels que la finance, le marketing, les ventes, etc.
Question. 23. Qu’est-ce qu’un diagramme de BUS ?
Réponse : Le schéma BUS contient des dimensions conformes. En d’autres termes, il est utilisé pour identifier les dimensions communes à tous les entrepôts de données d’une organisation.
Question. 24. Quelles sont les trois couches du cycle ETL ? Expliquez-les brièvement.
Réponse : Les trois couches du cycle ETL sont les suivantes.
- Couche de préparation – également connue sous le nom de couche source. Cette couche est utilisée pour stocker les données collectées à partir de différentes sources de données.
- Couche d’intégration – Une fois les données sources transformées, elles sont stockées dans la couche d’intégration. Dans cette couche, les données sont stockées dans une base de données.
- Couche d’accès – également appelée couche de dimension. Il s’agit de la couche frontale utilisée par l’utilisateur final pour générer des rapports.
Question. 25. Qu’est-ce qu’une zone de transit ?
R : Une zone de transit est également connue sous le nom de zone d’atterrissage, où les données provenant de diverses sources sont temporairement stockées. La zone de transit est importante car toutes les données doivent être disponibles dans une seule zone avant d’être chargées dans l’entrepôt de données ou le data mart. Il est utilisé pour stocker et nettoyer les données avant de les transférer dans la base de données cible.
Question. 26. Qu’est-ce que l’ODS ?
R : ODS signifie Operational Data Store (magasin de données opérationnel). Il est utilisé pour le reporting opérationnel des données stockées dans différents entrepôts de données. Il comprend également un aperçu des données les plus récentes provenant de ces sources.
Question.27. Qu’est-ce qu’une transformation active ou passive ? Expliquez-les brièvement.
Réponse :
- Transformation active – Dans ce type de transformation, le nombre de lignes est modifié lorsque les données sont transférées de la base de données source à la base de données cible.
- Transformation passive – Dans ce type de transformation, le nombre de lignes ne change pas lorsque les données sont transférées vers la base de données cible.
Question. 28. Qu’est-ce que le nettoyage des données ?
R : Le nettoyage des données est le processus qui consiste à retirer ou à supprimer les données indésirables d’un entrepôt de données. Cette opération est généralement effectuée pour libérer de l’espace dans la base de données.