Analítica de datos

¿Por qué es importante la observabilidad en ‘DataOps’?

Porque construir canalizaciones de datos confiables es difícil, y el primer paso para convertirse en una organización basada en datos se basa en la capacidad de poder confiar en los mismos.

datos

Son las 8 a.m y un líder empresarial está mirando un tablero de rendimiento financiero a la vez que se pregunta si los resultados son precisos. Unas horas más tarde, un cliente inicia sesión en el portal de su empresa y se pregunta por qué sus pedidos no muestran la información de precios más reciente. Por la tarde, el jefe de marketing digital está frustrado porque las fuentes de datos de sus herramientas SaaS nunca llegaron a su plataforma de datos de clientes. Los científicos de datos también están molestos porque no pueden volver a entrenar sus modelos de aprendizaje automático sin cargar los últimos conjuntos de datos.

Estos problemas relacionados con las operaciones de datos son importantes. Las empresas deben esperar, y con razón, que se proporcionen datos precisos y puntuales a las visualizaciones de datos, las plataformas de análisis, los portales de clientes, los catálogos de datos, los modelos de machine learning y cualquier otro lugar donde se consuman los mismos.

Los equipos de gestión de datos y DataOps dedican un esfuerzo considerable a la creación y el soporte de lagos de datos y almacenes de datos. Lo ideal es que se alimenten de flujos de datos en tiempo real, plataformas de integración de datos o integraciones de API, pero muchas organizaciones siguen teniendo scripts de procesamiento de datos y flujos de trabajo manuales que deberían estar en la lista de deudas de datos. Lamentablemente, la solidez de los conductos de datos es a veces una idea tardía, y los equipos de DataOps son a menudo reactivos a la hora de abordar los problemas de origen, conductos y calidad en sus integraciones de datos.

En mi libro Digital Trailblazer escribo sobre la época en que había menos herramientas de integración de datos y lo normal era solucionar manualmente los problemas de calidad de los datos. "Cada aplicación de procesamiento de datos tiene un registro, y cada proceso, independientemente de cuántos scripts estén encadenados, también lo tiene. Me convertí en un mago con herramientas Unix como sed, awk, grep y find para analizar estos registros cuando buscaba la causa raíz de un proceso fallido".

 

La observabilidad de dataOps ayuda a abordar la fiabilidad

La observabilidad es una práctica empleada por los equipos de DevOps para permitir el rastreo a través de viajes de clientes, aplicaciones, microservicios y funciones de bases de datos. Las prácticas incluyen la centralización de los archivos de registro de aplicaciones, la supervisión del rendimiento de las aplicaciones y el uso de plataformas AIops para correlacionar las alertas en incidentes gestionables. El objetivo es crear visibilidad, resolver incidentes más rápidamente, realizar análisis de causa raíz, identificar tendencias de rendimiento, permitir análisis forenses de seguridad y resolver defectos de producción. En este sentido la observabilidad de DataOps persigue objetivos similares, sólo que estas herramientas analizan canalizaciones de datos, garantizan entregas de datos fiables y ayudan a resolver problemas de calidad de datos.

Lior Gavish, cofundador y director de tecnología de Monte Carlo, afirma: "La observabilidad de datos se refiere a la capacidad de una organización para comprender la salud de sus datos en cada etapa del ciclo de vida de DataOps, desde la ingestión en el almacén o lago hasta la capa de inteligencia empresarial, donde la mayoría de los problemas de calidad de datos salen a la luz para las partes interesadas".

Sean Knapp, CEO y fundador de Ascend.io, profundiza en el planteamiento del problema de dataOps. "La observabilidad debe ayudar a identificar factores críticos como el estado operativo en tiempo real de las canalizaciones y las tendencias en la forma de los datos", afirma. "Los retrasos y errores deben identificarse con antelación para garantizar una entrega de datos fluida dentro de los niveles de servicio acordados. Las empresas deben estar al tanto de las roturas de código de las canalizaciones y de los problemas de calidad de los datos para poder abordarlos rápidamente y evitar que se propaguen a los consumidores posteriores”.

Knapp destaca a los empresarios como clientes clave de las canalizaciones de DataOps. Muchas empresas se esfuerzan por convertirse en organizaciones orientadas a los datos, por lo que cuando los conductos de datos no son fiables o no se puede confiar en ellos, los líderes, los empleados y los clientes se ven afectados. Las herramientas para la observabilidad de DataOps pueden ser críticas para estas organizaciones, especialmente cuando los científicos de datos ciudadanos utilizan herramientas de visualización y preparación de datos como parte de su trabajo diario. Por su parte Chris Cooney, defensor de los desarrolladores en Coralogix, defiende que “la observabilidad es más que unos cuantos gráficos representados en un panel de control. Es una práctica de ingeniería que abarca toda la pila y permite a los equipos tomar mejores decisiones".

 

DataOps vs. DevOps

Es habitual que los equipos de DevOps utilicen varias herramientas de supervisión para cubrir la infraestructura, las redes, las aplicaciones, los servicios y las bases de datos. Es similar a DataOps: mismas motivaciones, diferentes herramientas. Eduardo Silva, fundador y CEO de Calyptia, confiesa que "es necesario disponer de sistemas que ayuden a dar sentido a esos datos, y ninguna herramienta será suficiente por sí sola. En consecuencia, hay que asegurarse de que las canalizaciones puedan dirigir los datos a una amplia variedad de destinos". Silva recomienda para ello soluciones de código abierto y neutrales. Merece la pena considerar este enfoque, sobre todo porque la mayoría de las organizaciones utilizan varios lagos de datos, bases de datos y plataformas de integración de datos. Una capacidad de observabilidad de DataOps integrada en una de estas plataformas de datos puede ser fácil de configurar e implantar, pero puede no proporcionar capacidades holísticas de observabilidad de datos que funcionen en todas las plataformas.

¿Qué capacidades se necesitan por tanto? Ashwin Rajeev, cofundador y director de Tecnología de Acceldata.io, cree firmemente que “la observabilidad de los datos empresariales debe ayudar a superar los cuellos de botella asociados a la creación y el funcionamiento de canalizaciones de datos fiables". Rajeev profundiza: "Los datos deben entregarse de manera eficiente a tiempo en todo momento mediante el uso de la instrumentación adecuada con API y SDK. Las herramientas deben tener una navegación y un desglose adecuados que permitan realizar comparaciones. Debe ayudar a los equipos de DataOps a identificar rápidamente los cuellos de botella y las tendencias para una solución de problemas más rápida y un ajuste del rendimiento para predecir y prevenir incidentes”.

 

Capacidades de código y low-code

Un aspecto de la observabilidad de los DataOps son las operaciones, es decir, la fiabilidad y puntualidad de la entrega desde la fuente hasta la plataforma de gestión de datos y el consumo. Una segunda preocupación es la calidad de los datos. Armon Petrossian, cofundador y consejero delegado de Coalesce, habla sobre ello. "La observabilidad de los datos en DataOps implica garantizar que los equipos empresariales y de ingeniería tengan acceso a datos correctamente limpiados, gestionados y transformados para que las organizaciones puedan tomar decisiones técnicas y empresariales basadas en los mismos. Con la evolución actual de las aplicaciones de datos, para preparar mejor las canalizaciones de datos, las organizaciones deben centrarse en herramientas que ofrezcan la flexibilidad de un enfoque basado primero en el código, pero que estén basadas en GUI para permitir la escala empresarial, porque, al fin y al cabo, no todo el mundo es ingeniero de software".

Así pues, los DataOps y, por tanto, la observabilidad de los datos, deben tener capacidades que atraigan a los programadores que consumen API y desarrollan canalizaciones de datos sólidas y en tiempo real. Pero los no programadores también necesitan herramientas de calidad de datos y resolución de problemas para trabajar con sus esfuerzos de preparación y visualización de datos. "Del mismo modo que DevOps se basa en gran medida en herramientas de automatización de bajo código, DataOps también lo hace", añade Gavish. "Como componente crítico del ciclo de vida de DataOps, las soluciones de observabilidad de datos deben ser fáciles de implementar y desplegar en múltiples entornos de datos".

 

Supervisión de canalizaciones de datos distribuidas

Para muchas grandes empresas no es fácil implantar aplicaciones y canalizaciones de datos fiables. "Incluso con la ayuda de estas plataformas de observabilidad, los equipos de las grandes empresas tienen dificultades para anticiparse a muchos incidentes", afirma Srikanth Karra, CHRO de Mphasis. "Un problema clave es que los datos no proporcionan una visión adecuada de las transacciones que fluyen a través de múltiples nubes y entornos heredados". Hillary Ashton, directora de producto de Teradata, está de acuerdo. "Los ecosistemas de datos modernos están inherentemente distribuidos, lo que crea la difícil tarea de gestionar la salud de los datos a lo largo de todo el ciclo de vida". Además, comparte la siguiente conclusión: "Si no puedes confiar en tus datos, nunca te convertirás en data driven".

Así, Ashton recomienda para lograr una canalización de datos altamente fiable, “las empresas apuesten por una visión de 360 grados que integre los metadatos operativos, técnicos y empresariales mediante la observación de los datos de telemetría. Esta visión permite identificar y corregir problemas como la frescura de los datos, los registros que faltan, los cambios en los esquemas y los errores desconocidos. Integrar el aprendizaje automático en el proceso también puede ayudar a automatizar estas tareas".

Hemos recorrido un largo camino desde que utilizábamos comandos Unix para analizar archivos de registro en busca de problemas de integración de datos. Las herramientas actuales de observabilidad de datos son mucho más sofisticadas, pero proporcionar a la empresa canalizaciones de datos fiables y un procesamiento de datos de alta calidad sigue siendo un reto para muchas organizaciones. Acepte el reto y asóciese con los líderes empresariales en una implementación ágil e incremental, porque las visualizaciones de datos y los modelos de machine learning construidos sobre datos poco fiables pueden conducir a decisiones erróneas y potencialmente perjudiciales.



CASOS DE ÉXITO

Accede a nuestra publicación de canal

DealerWorld Digital

Documentos ComputerWorld

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS