Gobernanza de datos: etiquetado de datos de PII a través de Google Sheets

En este artículo nos centraremos en la industrialización del etiquetado de sus datos. Puede ver la acción de etiquetar como agregar metadatos a sus datos. Tener buenos metadatos sobre sus tablas y campos es el primer requisito previo para una gobernanza de datos sólida. Solo entonces puede comenzar a construir nuevas capas de gobierno de datos, como automatizar el proceso en torno a la información de identificación personal (PII). ¿Cómo asegurarse de que su base de datos de análisis pueda eliminar sistemáticamente los datos de alguien si se le solicita? ¿Cómo asegurarse de que nadie pueda acceder a estos datos PII? Estas son algunas de las preguntas que solo podrá abordar en caso de que tenga metadatos sólidos en sus tablas y campos.

Sin el análisis de big data, las empresas son ciegas y sordas y deambulan por la web como ciervos en una autopista.

Si hay algo que define a las empresas exitosas hoy en día, es la comprensión, el uso y la estrategia exitosos de los datos de una empresa. En todas las empresas, los datos siguen creciendo a un ritmo exponencial. Si bien esto podría generar una mayor cantidad de información, a menudo conduce a que las empresas se pierdan en este enorme pantano de datos.

Y por las razones correctas, ya que escalar a terabytes o petabytes de datos requiere una gobernanza de datos sólida para que todo tenga sentido.

Durante los últimos 2 años hemos estado trabajando en varios proyectos de almacenamiento de datos en Google Cloud y en el gobierno de datos de estos proyectos. La combinación de BigQuery junto con Data Catalog hace que sea muy eficiente gobernar los datos de toda su organización a través de un solo panel.

Catálogo de datos y BigQuery

Data Catalog al ser un recurso a nivel de organización , te permitirá acceder a los datos de todos tus proyectos a través de un único punto de acceso.

De forma predeterminada, todos los esquemas de sus tablas de BigQuery aparecerán allí. Por lo tanto, cumple con un requisito de visibilidad que necesita uno de los pilares de la gobernanza de datos.

Plantillas de etiquetas en Data Catalog

Data Catalog realmente brilla con sus posibilidades de etiquetas a través de plantillas de etiquetas .

Con estas plantillas, usted define una plantilla de etiquetas que luego puede completar para cualquiera de sus tablas de BigQuery y campos dentro de cualquier tabla.

Ejemplos de etiquetas a nivel de campos pueden ser:

  • has_pii (booleano) : booleano que indica la existencia o no de PII
  • descripción (cadena) : una descripción explícita
  • clasificación (enumera) : el tipo de datos que contiene este campo (id, financiero, científico, etc.)
  • etc.

Puede crear fácilmente una docena de etiquetas que facilitarán mucho la búsqueda y la comprensión de sus datos para todos sus datos y analistas comerciales.

Proceso de etiquetado manual en Data Catalog

Un inconveniente de Data Catalog cuando comienza a tener muchas etiquetas y muchos datos es que el proceso de etiquetado puede llevar bastante tiempo y no muy conveniente si lo hace a través de la interfaz de usuario. Además, no solo una persona debe ser responsable del etiquetado.

Es probable que un administrador de datos deba analizar la creación y los cambios en las etiquetas con el propietario de los datos de antemano, y luego crear las etiquetas manualmente en la consola de GCP.

¿No sería fantástico si este proceso pudiera simplificarse e industrializarse? Esto es exactamente lo que resolvimos al crear una capa de interfaz de usuario en el nombre de las hojas de Google en la parte superior de Data Catalog.

Una solución para automatizar el proceso de etiquetado con Google Sheets

Con nuestra solución de etiquetado, un administrador de datos puede publicar fácilmente etiquetas de forma masiva en Data Catalog, solo con el uso de Google Sheets. Mediante el uso de algunos scripts de aplicaciones , cargamos automáticamente todos los esquemas de BigQuery con etiquetas actuales en Google Sheets. Entonces depende de cualquier administrador de datos comenzar a etiquetar los datos de forma masiva.

Una vez que hayan terminado de etiquetar, al hacer clic en el botón "guardar" de Apps Script se activará un proceso de aprobación que enviará un correo electrónico al propietario de los datos para su revisión. Luego, el propietario de los datos puede revisar todos los cambios a través de una aplicación web alojada en App Engine. En caso de que esté de acuerdo con los cambios, las nuevas etiquetas se publican en Data Catalog.

Arquitectura de nuestra solución de etiquetado de datos PII en Google Sheets

A continuación se puede ver una arquitectura resumida de este proceso. La arquitectura real involucra algunas Cloud Functions para la recopilación y validación de los datos, un servicio de App Engine para el proceso de aprobación o rechazo, Datastore para guardar los conjuntos de claves, etc.

Sin embargo, las únicas herramientas que necesita para interactuar como usuario son Google Sheet y App Engine para aprobar o rechazar los cambios en las etiquetas.

Detrás de escena, sucede mucho más para hacer que todo este proceso sea robusto. A continuación se muestra una arquitectura completa de todos los productos de Google utilizados:

Hay tres partes principales en esta arquitectura:

1. El etiquetado a través de Google Sheets : se requiere que un administrador de datos ingrese una serie de etiquetas para todos los datos (nivel de tabla y columna) a través de una hoja de Google que luego publicará las etiquetas en Data Catalog después de la aceptación del propietario de los datos.
Para evitar errores manuales, hemos agregado algunos menús desplegables en la Hoja de Google que le brindan una descripción general más fácil de los valores que debe completar en las etiquetas. También se realizan algunos procesos de validación de datos para verificar sus cambios antes de enviarlos al propietario de los datos. Dos funciones están presentes en la hoja de Google:

  • Actualizar datos : esto llamará a una función de Google Cloud que buscará las últimas etiquetas de Data Catalog para todos sus datos.
  • Guardar datos : esto guardará todas sus etiquetas en un archivo json en Cloud Storage y al mismo tiempo envía una solicitud de aprobación al propietario de los datos.

2. El proceso de aprobación : esta parte es una aplicación web simple alojada en App Engine y accesible a través de IAP para usuarios autorizados. Un propietario de datos puede revisar las etiquetas en esta aplicación web y, en caso de que apruebe los cambios, un simple clic en "aprobar" enviará todas las etiquetas a Cloud Tasks .

3. La publicación de las etiquetas: una tarea en la cola de Cloud Tasks corresponde a un campo de BigQuery. El controlador de esta cola es entonces una función de nube. Esto nos permite aprovechar una multitud de invocaciones para cada una de las tareas y pagar solo por los pocos milisegundos que se ejecuta cada invocación de función.

Conclusión Google Cloud ofrece un paquete de análisis increíble y es de gran importancia utilizarlo con una gobernanza sólida para proteger y dar visibilidad a los datos. Este artículo se centró en la industrialización de su proceso de etiquetado a través de Google Sheets sobre Data Catalog. En un próximo artículo, veremos cómo puede automatizar el cifrado y descifrado de sus datos de PII a través de las preguntas integradas de BigQuery sobre esta excelente forma de comenzar con la gobernanza de datos, o sobre cualquier otro desafío de datos y análisis. ¡Nos complace discutir con usted la mejor manera de avanzar! ¿Cómo ahorrar toneladas de tiempo y recursos acelerando su estrategia de datos y análisis? ¡Lea más sobre nuestro acelerador de almacenamiento de datos Flycs! Función AEAD junto con Data Catalog.

Publicado originalmente en https://www.fourcast.io .


Gobernanza de datos: el etiquetado de datos de PII a través de Google Sheets se publicó originalmente en Google Cloud - Community on Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.