Análisis de calidad de datos en Google Cloud Platform

Enfoque sistemático para generar estadísticas de calidad de datos a partir de tablas de BigQuery

El análisis de la calidad de los datos permite a las organizaciones reducir el costo de identificar y corregir datos incorrectos en los sistemas. Es una parte integral de una organización recolectar conocimientos significativos. En este Blog, se recopilan pocas estadísticas importantes sobre la calidad de los datos, que pueden garantizar que solo se utilicen datos confiables para la toma de decisiones, lo que, a su vez, aumenta la confianza en los sistemas analíticos. Se recopilan las siguientes estadísticas:

  1. Nulos: número de valores perdidos en una columna
  2. Cardinalidad: número de valores únicos en una columna
  3. Selectividad: relación entre cardinalidad y número de filas, que proporciona unicidad de los datos en una columna.
  4. Densidad: número de valores en una columna en relación con el número de filas, es decir, número de valores no NULL en una columna

A continuación, se muestran varios pasos relacionados con esta solución:

Paso 1: crear una tabla de BigQuery

Se crea una tabla de BigQuery para almacenar estadísticas de calidad de datos. En esta solución, el nombre del conjunto de datos se usa como " bq_poc " y el nombre de la tabla como " dq_report ". Los cambios realizados en el conjunto de datos de BigQuery y el nombre de la tabla deben reflejarse en el archivo de configuración ( dq.yaml ).

 CREAR TABLA bq_poc . dq_report (
TimeStamp TIMESTAMP,
TableRef STRING,
ColumnName STRING,
MinValue STRING,
MaxValue STRING,
NullValues STRING,
Cardinalidad STRING,
Selectividad STRING,
Densidad STRING
)

Paso 2: compilar e implementar

En esta solución, los parámetros de entrada se leen desde un archivo de configuración que proporciona flexibilidad para cambiar los valores de entrada sin cambios en el código fuente. Se crea una tabla designada para almacenar las estadísticas recopiladas que consta de una columna de marca de tiempo para mantener el historial de todas las estadísticas.

El archivo de configuración flexible está diseñado para permitir el análisis de columnas específicas y tener la posibilidad de calcular estadísticas de múltiples tablas de múltiples conjuntos de datos en un solo intento.

Las funciones de biblioteca definidas por el usuario se utilizan para realizar actividades de rutina como la extracción de datos de tablas, generar SQL dinámico y calcular estadísticas, que se pueden reutilizar en múltiples aplicaciones.

Paso 3: Estadísticas de calidad de datos

Las estadísticas de calidad de los datos se recopilan mediante una solución basada en código y se almacenan en una tabla de BigQuery para generar informes. Cada columna analizada tiene una marca de tiempo (UTC) y una tabla de referencia ( .

). La fórmula asociada con la selectividad y la densidad se define a continuación:

 Selectividad = cardinalidad / número de filas * 100%
Densidad = (Número de filas - Número de NULL) / (Número de filas) * 100%
Estadísticas de calidad de datos almacenadas en la tabla de BigQuery

Repositorio de código fuente

https://github.com/soumendra-mishra/data-quality-analysis.git


El análisis de calidad de datos en Google Cloud Platform se publicó originalmente en Google Cloud - Community on Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.