Big Data
Analítica de datos

Cómo evitar y reducir la deuda de datos

La deuda de datos puede ser tan perjudicial como la tecnológica, llegando a causar problemas de seguridad y confianza si no se aborda a lo largo de la cadena de datos.

analítica de datos, datos
Créditos: Lukas Blazek (Unsplash).

Los equipos Devops construyen su infraestructura como código, automatizan los despliegues con integración continua/entrega continua (CI/CD) y establecen pruebas continuas como algunos de los pasos para evitar la deuda técnica. Demasiada deuda técnica [el coste del trabajo adicional que genera elegir la solución más rápida en lugar de la más efectiva] huele mal y ralentiza a los equipos de desarrollo ágil que tratan de ofrecer funciones y mejorar la fiabilidad de las aplicaciones. "En pequeñas cantidades, la deuda técnica es útil porque te permite centrarte en cosas urgentes, pero debes pagar tus deudas o corres el riesgo de que crezcan demasiado", afirma Marko Anastasov, cofundador de Semaphore CI/CD.

Los equipos de ingeniería de datos que buscan mejorar los dataops y la gobernanza de datos deben reducir la deuda técnica en el código y las automatizaciones, mientras que los científicos de datos deben evaluar sus modelos de aprendizaje automático y otros códigos de análisis.

Reducir la deuda técnica a nivel de código no es suficiente para los equipos de datos y análisis. También deben abordar la deuda de datos mediante la reducción de los datos duplicados; la mejora de la calidad de los datos; la identificación de las fuentes oscuras de datos; la centralización de los datos maestros; y la resolución de los problemas de seguridad de los datos

Al igual que la deuda técnica, la deuda de datos es más fácil de identificar después de su creación. A menudo requiere que los equipos refactoricen o corrijan los problemas antes de crear mejoras en la canalización de datos o nuevas capacidades analíticas. Aplicar las mejores prácticas para minimizar la nueva deuda de datos es más difícil, especialmente cuando los equipos no pueden predecir todos los casos de uso futuros de análisis, cuadros de mando y aprendizaje automático. Michel Tricot, cofundador y CEO de Airbyte, afirma que "la deuda no es mala. Sin embargo, hay que pagarla, debe ser el foco porque las decisiones importantes se tomarán con los datos".

He aquí seis pasos en los que los equipos de datos pueden centrarse y que ayudan a evitar o reducir los riesgos de la deuda de datos.

 

1. Incorporar la gobernanza en las capacidades de análisis

Los equipos de Devops saben que abordar la calidad del código, los defectos y los problemas de seguridad es mucho más difícil una vez que han desarrollado dicho código, por lo que tratan de cambiar las prácticas de seguridad y la garantía de calidad. Del mismo modo, los ingenieros de operaciones de datos y los científicos de datos deben cambiar las prácticas de gobernanza de datos e inculcarlas mientras construyen o actualizan canalizaciones de datos, análisis y modelos de ML.

Joseph Rutakangwa, cofundador y CEO de Rwazi, afirma que disponer de tecnologías de gobernanza de datos puede ser de gran ayuda. "Los catálogos de datos, las herramientas de linaje de datos y los sistemas de gestión de metadatos pueden ayudar a las organizaciones a gestionar y realizar un seguimiento de las fuentes de datos, los modelos de datos y el linaje de datos, lo que puede reducir el riesgo de deuda de datos", afirma. "Las herramientas de calidad de datos, como las herramientas de perfilado y limpieza de datos, pueden ayudar a identificar y abordar los problemas con la calidad, lo que puede ayudar a prevenir la introducción de datos de baja calidad en el modelo de datos y reducir el riesgo de deuda de datos".

Disponer de tecnologías ayuda, pero los equipos de datos también deben inculcar buenas prácticas. Michael Drogalis, tecnólogo principal de Confluent, recomienda "elegir conscientemente los patrones de acceso, mantener la gobernanza, incorporar el versionado y distinguir los datos fuente de verdad de los datos derivados". Por su parte, Sasha Grujicic, presidente de NowVertical, añade soluciones como "estandarizar las visualizaciones de datos, eliminar los informes no utilizados, definir las definiciones de datos, implementar catálogos de datos que alerten a los equipos cuando las cosas necesitan documentación e instituir procedimientos de calidad de datos".

 

2. Asignar la gobernanza a los equipos de datos y análisis

Dotar a los equipos de datos ágiles de tecnologías de gobernanza de datos y conocer las mejores prácticas es un paso acertado. Los miembros del equipo deben comprender sus funciones y responsabilidades en torno a la tecnología y la deuda de datos para gestionar un proceso de mejora continua. Rutakangwa recomienda: "Designar funciones de administración de datos, como arquitectos de datos, analistas de datos e ingenieros de datos". Y añade: "Asignar funciones ayuda a mantener los modelos de datos, garantizar que los datos sean precisos y abordar los problemas para minimizar la deuda de datos".

Grujicic apunta: "Las organizaciones pueden identificar y esbozar la estructura de gobierno de datos adecuada adoptando una estrategia descendente y construyendo un sistema escalable para soportar las entradas actuales y futuras". Para la mayoría de las empresas, la disminución de la deuda de datos reducirá el riesgo, disminuirá los costes, aumentará la productividad y establecerá una base para el crecimiento en los próximos años".

 

3. Establecer métricas de confianza para impulsar la remediación de la deuda

Los equipos de datos centrados en abordar la deuda de datos deben tener como objetivo mejorar la confianza para que cuando los empleados revisen los datos, confíen en su precisión y calidad. Tricot dice: "Determine el nivel de confianza que tiene en los datos utilizando herramientas de catalogación y observando cuántas exploraciones de datos e informes de producción dependen de piezas específicas de datos".

Los niveles de uso más altos pueden indicar confianza, pero no lo dicen todo. Los Dataops y los equipos de gobierno deben medir la calidad de los datos utilizando métricas de precisión, integridad, coherencia, puntualidad, unicidad y validez. Los responsables de datos también deberían considerar la posibilidad de encuestar a líderes y usuarios y desarrollar una puntuación de satisfacción de datos en torno a su grado de confianza en los datos, informes y predicciones.

 

4. Implementar el linaje y la observabilidad de los datos

Un uso escaso, una calidad de datos deficiente o unas métricas de satisfacción de datos mediocres indican claramente que la deuda de datos puede socavar el modo en que los responsables utilizan los datos para la toma de decisiones. Cuando hay poca confianza, los equipos de dataops deben trabajar hacia atrás para comprender el linaje de los datos y cómo cambian de origen a destino. Una forma de desplazar el linaje de los datos hacia atrás es implementar la observabilidad de los datos en cada paso del proceso de datos.

"La observabilidad de los datos es cuando conoces el estado de tus datos a lo largo de todo el ciclo de vida", dice Grant Fritchey, defensor de devops en Redgate Software. "Construye este tipo de observabilidad cuando configures un proceso dataops para saber si algo ha ido mal y dónde, y qué se necesita para solucionarlo". Grant también dice que la observabilidad de los datos ayuda a comunicar los flujos de datos a los usuarios de negocio y establece una pista de auditoría para apoyar la depuración y las auditorías de cumplimiento.

Jeff Foster, director de tecnología e innovación de Redgate Software, añade: "La observabilidad de los datos ayuda a los ingenieros poniendo límites para que los datos acaben utilizándose de forma ética y conforme a la normativa. A medida que construyamos pipelines de IA/ML cada vez más sofisticados, los dataops serán cada vez más importantes al tratar de comprender las fuentes de datos utilizadas para construir modelos de aprendizaje automático a gran escala".

 

5. Cuidado con los datos bloqueados en sistemas cerrados

Parte de la deuda de datos es la deuda de sistemas de datos, causada cuando las plataformas de gestión de datos subyacentes no están satisfaciendo las necesidades del negocio. Erik Bledsoe, director de marketing de contenidos de Calyptia, afirma: "Los datos son irrelevantes hasta que dejan de serlo, y entonces son cruciales. Por eso hay que ser capaz de procesar los datos, almacenar lo que es relevante en ese momento en los back-ends adecuados y, a continuación, encaminar el resto a soluciones de almacenamiento de bajo coste donde puedan recuperarse para futuros análisis".

Bledsoe recomienda buscar herramientas de proveedores neutrales respaldadas por estándares abiertos. Y advierte: "Los datos a los que sólo se puede acceder mediante una aplicación que se dejó de usar hace tres años son tan malos como no tener los datos para empezar, y pueden ser incluso peores, ya que tus datos están esencialmente secuestrados".

Una forma de evitar el bloqueo es automatizar las extracciones de datos de SaaS y otras aplicaciones y utilizar plataformas de datos centralizadas como data lakes o almacenes de datos para casos de uso de informes y análisis. Las plataformas de datos centralizadas también pueden ser la base de cualquier migración de plataforma. Archivar datos antiguos ayuda a cumplir con los requisitos de cumplimiento sin abrumar las herramientas de visualización y análisis de datos con más datos de los necesarios.

 

6. Elegir plataformas de gestión óptimas para los tipos de datos

Un último punto en torno a la deuda de los sistemas de datos es la necesidad de que los arquitectos debatan sobre la base de datos y las plataformas de gestión de datos óptimas. Las bases de datos relacionales eran las únicas opciones viables hace décadas, pero hoy en día, los arquitectos pueden elegir entre tecnologías de bases de datos gráficas, clave-valor, columnares, documentales y otras.

Si se elige una plataforma de gestión de datos menos óptima, las soluciones necesarias para el análisis de datos pueden crear complejidades en la deuda de datos.

Un enfoque consiste en ver almacenes de datos flexibles, como los lagos de datos, y modelos de datos semiestructurados en bases de datos gráficas. Victor Lee, vicepresidente de experiencia de desarrolladores de TigerGraph, afirma: "La tecnología de grafos ayuda a reducir la deuda de datos al permitir a las empresas conectar rápidamente sus datos de forma flexible y, a continuación, ayudar a integrar los datos de forma más inteligente".

A medida que las organizaciones se orientan más hacia los datos en la toma de decisiones y desarrollan modelos de aprendizaje automático para obtener ventajas competitivas, los equipos de datos deben abordar la deuda de datos de forma proactiva.



TE PUEDE INTERESAR...

CASOS DE ÉXITO

Accede a nuestra publicación de canal

DealerWorld Digital

Documentos ComputerWorld

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS