28 preguntas y respuestas de entrevistas para pruebas ETL

28 preguntas y respuestas de entrevistas para pruebas ETL
MIN
03 Jun 2024

Las pruebas ETL se utilizan para verificar la corrección de la migración de datos de la base de datos de origen a la base de datos de destino, junto con la verificación de las reglas de transformación.

En este artículo, hemos recopilado una lista de algunas preguntas frecuentes de las entrevistas de pruebas ETL.

Preguntas y respuestas de la entrevista sobre pruebas ETL

Pregunta.1. ¿Qué es ETL?

R: La abreviatura ETL significa Extraer, Transformar y Cargar. Estas tres funciones son funciones de base de datos y se realizan sobre los datos para pasarlos de una o varias fuentes (base de datos) a otra (base de datos).

Pregunta.2. ¿Qué es el proceso ETL?

R: El proceso ETL consta de tres pasos:

  • Extracción – En este paso, se extraen los datos de una o varias bases de datos fuente.
  • Transformación – En este segundo paso, los datos se transforman en un formato adecuado para la base de datos de destino.
  • Carga – los datos transformados se cargan finalmente en la base de datos de destino.

Pregunta.3. ¿Qué es la prueba ETL? ¿O cuál es la importancia de las pruebas ETL?

Respuesta: Las pruebas ETL se realizan para garantizar la exactitud de los datos que se cargan en la base de datos de destino. También garantiza que se siguen las reglas de transformación de datos requeridas y que no se pierden datos durante el proceso ETL.

Pregunta. 4. ¿Cuáles son los distintos retos de las pruebas ETL?

R: Los distintos retos de las pruebas ETL son:

  • Indisponibilidad de datos de prueba, ya que las pruebas ETL requieren grandes cantidades de datos de prueba.
  • Falta de recursos cualificados, ya que las pruebas ETL requieren consultas SQL complejas.
  • Diseñar casos de prueba es difícil porque las pruebas ETL requieren trabajar con grandes volúmenes de datos.
  • Los datos de prueba disponibles pueden no cubrir todos los escenarios posibles.
  • Pérdida de datos durante las pruebas ETL.

Pregunta.5. ¿Cuáles son los cuatro tipos de pruebas ETL? Explica brevemente cada una de ellas.

Contesta: Esta es una de las preguntas más frecuentes en una entrevista de pruebas ETL.

  • Pruebas de nuevo almacén de datos – En este tipo de pruebas, se crea un nuevo almacén de datos desde cero. Los datos de entrada se obtienen del cliente.
  • Pruebas de migración – Este tipo de pruebas son necesarias cuando se migran datos de una base de datos antigua a una nueva.
  • Solicitud de cambio – En este tipo de pruebas, los datos se recuperan de varias fuentes y se cargan en una base de datos existente.
  • Pruebas de informes – Las pruebas de informes comprueban la exactitud de los datos, los derechos de acceso y el diseño de los informes creados en el sistema de almacén de datos.

Pregunta.6. ¿Qué es el Esquema Estrella?

R: Un esquema en estrella es un esquema multidimensional utilizado para modelar sistemas de almacenamiento de datos. Contiene una o varias tablas de hechos y varias tablas de dimensiones. La tabla de hechos está en el centro y hay varias tablas de dimensiones asociadas a ella, que se asemejan a la forma de una estrella.

Pregunta.7. ¿Qué es el Esquema Snowflake?

Respuesta El esquema copo de nieve es un esquema multidimensional utilizado para modelar sistemas de almacenamiento de datos. Un esquema copo de nieve contiene una o varias tablas de hechos, múltiples tablas de dimensiones y tablas de subdimensiones. Es una prolongación del dibujo de la estrella y se asemeja a la forma de un copo de nieve.

Pregunta.8. ¿Qué es una tabla de hechos?

Respuesta: La tabla de hechos del modelo dimensional contiene información cuantitativa sobre hechos relevantes para la empresa. Las tablas de hechos se utilizan para el análisis y suelen estar desnormalizadas.

La tabla de hechos consta de dos tipos de columnas: las columnas de «clave externa» y las columnas de «Medidas». Las columnas «Clave externa» se utilizan para hacer referencia a las tablas de dimensiones y las columnas «Medidas» contienen los datos que se van a analizar.

Algunos ejemplos de hechos son el número de productos vendidos, el número de pedidos realizados, etc.

Pregunta.9. ¿Cuáles son los tres tipos de hechos?

Contesta: Los tres tipos de hechos son:

  • Aditivos: los hechos aditivos son hechos para los que se puede sumar cada dimensión.
  • Semiaditivos – Los hechos semiaditivos son hechos para los que se pueden sumar algunas dimensiones, pero no todas.
  • No aditivos – Los hechos no aditivos son hechos para los que no se puede sumar ninguna de las dimensiones.

Pregunta. 10. ¿Qué es una tabla de hechos de transacción?

Respuesta: La tabla de hechos transaccional es uno de los tres tipos de tabla de hechos y es la más básica. En este tipo de tabla de hechos, cada suceso se almacena una sola vez y contiene los datos de nivel más bajo. Además, el número de filas de esta tabla de hechos es similar al número de filas de la tabla de origen.

Pregunta.11. ¿Qué es una tabla periódica de datos instantáneos?

R: En este tipo de tabla de hechos, un hecho puede almacenarse varias veces y recoge el estado de los hechos en periodos predefinidos.

Pregunta.12. ¿Qué es una tabla de hechos acumulativa o instantánea acumulativa?

Respuesta: La tabla de hechos acumulados es la más exigente de todos los tipos de tablas de hechos y puede utilizarse cuando un proceso empresarial tiene un principio y un final definidos.

Pregunta.13. ¿Qué es el Grano en el contexto de una tabla de hechos?

R: «Grano» en la tabla de hechos representa el nivel de detalle de una sola fila.

Pregunta. 14. ¿Qué es una tabla de hechos sin hechos?

Respuesta: Una tabla de hechos sin hechos no contiene medidas ni hechos. También contiene sólo columnas de «clave externa» para establecer la relación entre dimensiones.

Pregunta.15. ¿Qué es una tabla de dimensiones?

Respuesta: Una tabla de dimensiones es uno de los dos tipos de tablas que se utilizan en el modelado dimensional, el otro es una tabla de hechos. La tabla de dimensiones describe las dimensiones o criterios descriptivos de los objetos de la tabla de hechos, por ejemplo dimensión La ubicación puede incluir calle, ciudad, código postal, estado, etc.

Pregunta.16. Nombra algunos tipos de dimensiones.

Contesta: Son los siguientes tipos de dimensiones:

  • Dimensión que cambia lentamente
  • Dimensión Conforme
  • Dimensión basura/Dimensión sucia
  • Dimensión desagregada
  • Dimensión del puente

Pregunta .17. ¿Qué es la SCD?

R: SCD significa Cambio Lento de Dimensiones. Este es un tipo de dimensión. Las DSC son dimensiones cuyos atributos no cambian regularmente, sino que cambian con el tiempo.

Por ejemplo: dimensión cliente. Los atributos de la dimensión cliente, como la dirección y el nombre del cliente, no cambian con frecuencia.

Pregunta.18. ¿Cuáles son los tipos de SCD? Explica brevemente cada una de ellas.

Respuesta: Tipos de SCD:

  • Tipo 0 – En este tipo los atributos de la dimensión nunca cambian, por ejemplo DoB- Fecha de Nacimiento.
  • Tipo 1 – En este tipo de SCD, la nueva información sobrescribe los datos antiguos y no se hace un seguimiento de los cambios históricos. Por ejemplo. cambiar el atributo «Ciudad» en la dimensión Cliente si el cliente cambia de ciudad.
  • Tipo 2 – En este tipo de SCD, la nueva información se añade a una nueva línea y se mantiene el seguimiento de los cambios históricos. Se asigna una nueva clave primaria al nuevo registro. Por ejemplo en el ejemplo anterior de cambio de ciudad, se añade un nuevo registro para añadir una nueva ciudad.
  • Tipo 3 – En este tipo, en lugar de crear una nueva fila como en el tipo 2, se añade una nueva columna, por ejemplo en el ejemplo anterior de cambio de ciudad, se añaden dos columnas más, «Nueva ciudad» y «Año» o «Fecha».
  • Tipo 4 – En este tipo de SCD, se crea una «tabla histórica» o minidimensión independiente para hacer un seguimiento de los cambios. Los valores actuales de los atributos se muestran en la tabla de dimensiones, y cualquier cambio o valor antiguo se muestra en la tabla del historial.
  • Tipo 5 – En este tipo se utiliza una minidimensión de tipo 4 y una referencia de tipo 1 para referenciar la tabla de minidimensiones en la tabla de dimensiones base.
  • Tipo 6 – En este tipo de SCD, se utiliza una combinación de los tipos 1, 2 y 3. También se conoce como método «híbrido».

Pregunta. 19. ¿Qué es la Dimensión Conformada?

Respuesta: Estos tipos de dimensiones pueden utilizarse en varias ubicaciones con diferentes tablas de hechos, ya sea en una única base de datos o en varios data marts.

Algunos ejemplos de dimensiones conformes son la dimensión cliente, la dimensión producto, la dimensión tiempo, etc. Por ejemplo La dimensión producto puede utilizarse para calcular el número de productos vendidos y los ingresos generados.

Pregunta 20. ¿Qué es la Dimensión Basura o Dimensión Sucia?

Respuesta: Como su nombre indica, estas dimensiones contienen atributos basura o aleatorios que no pertenecen a ninguna dimensión concreta. Estas dimensiones se crean para evitar muchas claves externas en la tabla de hechos.

Pregunta. 21. ¿Qué es la Dimensión Degenerada?

Respuesta Una dimensión degenerada es una dimensión que no tiene su propia dimensión independiente, sino que forma parte de una tabla de hechos, por ejemplo. el número de recibo o factura no tiene una tabla de dimensiones separada. Sin embargo, como es muy importante desde el punto de vista empresarial, se almacena en una tabla de hechos.

Pregunta.22. ¿Qué es Data Mart?

R: Un mercado de datos es una base de datos que contiene datos almacenados en uno de los segmentos de un almacén de datos, por lo que, en otras palabras, un mercado de datos es un subconjunto de un almacén de datos. Estos segmentos del almacén de datos suelen pertenecer a áreas empresariales organizativas individuales, como finanzas, marketing, ventas, etc.

Pregunta. 23. ¿Qué es un diagrama BUS?

Contesta: El esquema BUS contiene dimensiones conformes. En otras palabras, se utiliza para identificar las dimensiones comunes a todos los almacenes de datos de una organización.

Pregunta. 24. ¿Cuáles son las tres capas del ciclo ETL? Explícalos brevemente.

Respuesta: Las tres capas del ciclo ETL son.

  • Capa de puesta en escena: también se conoce como capa de origen. Esta capa se utiliza para almacenar datos recogidos de distintas fuentes de datos.
  • Capa de integración – Una vez transformados los datos de origen, se almacenan en la capa de integración. En esta capa, los datos se almacenan en una base de datos.
  • Capa de acceso: también conocida como capa de dimensión. Es la capa frontal que utiliza el usuario final para generar informes.

Pregunta. 25. ¿Qué es una zona de parada?

R: Un área de preparación también se conoce como zona de «aterrizaje», donde se almacenan temporalmente datos de diversas fuentes. El área de preparación es importante porque todos los datos deben estar disponibles en un área antes de cargarlos en el almacén de datos o en el mercado de datos. Se utiliza para almacenar y limpiar los datos antes de trasladarlos a la base de datos de destino.

Pregunta. 26. ¿Qué es el SAD?

R: ODS significa Almacén de Datos Operativos. Se utiliza para elaborar informes operativos de datos almacenados en distintos almacenes de datos. También incluye una instantánea de los datos más recientes de estas fuentes.

Pregunta.27. ¿Qué son las transformaciones activas y pasivas? Explícalos brevemente.

Contesta:

  • Transformación activa – En este tipo de transformación, el número de filas se modifica cuando los datos se transfieren de la base de datos de origen a la de destino.
  • Transformación pasiva – En este tipo de transformación, el número de filas no cambia cuando los datos se transfieren a la base de datos de destino.

Pregunta. 28. ¿Qué es la limpieza de datos?

R: La limpieza de datos es el proceso de eliminar o suprimir datos no deseados de un almacén de datos. Suele hacerse para liberar espacio en la base de datos.