Cómo extraer el valor oculto de los datos oscuros

Lo más probable es que la mayor parte de los datos que recopilas -desde las comunicaciones humanas hasta los registros de las máquinas- se estén acumulando con pocos planes para aprovechar su potencial. El buen gobierno y la IA pueden ayudar.

Audio codificado de pilotos de carreras

Durante cinco años, Envision Racing ha recopilado grabaciones de audio de más de 100 carreras de Fórmula E, cada una con más de 20 pilotos.

"Las transmisiones de radio están disponibles en frecuencias abiertas para que cualquiera pueda escucharlas", dice Amaresh Tripathy, líder global de análisis en Genpact, una empresa de consultoría que ayudó a Envision Racing a hacer uso de estos datos.

Anteriormente, los ingenieros del equipo con sede en el Reino Unido intentaban utilizar estas transmisiones de audio en tiempo real durante las carreras, pero los nombres en clave y los acrónimos que utilizaban los pilotos dificultaban la comprensión de lo que se decía y su aprovechamiento, ya que entender lo que decían otros pilotos podría ayudar a los de Envision Racing con su estrategia de carrera, afirma Tripathy.

"Por ejemplo, cuándo utilizar el modo de ataque. Cuándo adelantar a un piloto. Cuándo aplicar los frenos", dice.

Envision Racing también recogía datos de los sensores de sus propios coches, como los de los neumáticos, las baterías y los frenos, y adquiría datos externos de proveedores, como la velocidad del viento y las precipitaciones.

Genpact y Envision Racing trabajaron juntos para sacar partido a estos flujos de datos, utilizando el procesamiento del lenguaje natural para crear modelos de deep learning para analizarlos. El proceso duró seis meses, desde la preparación de la canalización de datos hasta la ingesta de los mismos, pasando por el filtrado del ruido y la obtención de conversaciones significativas.

Tripathy afirma que los humanos tardan entre cinco y diez segundos en saber qué están escuchando, un retraso que hacía que las comunicaciones por radio fueran irrelevantes. Ahora, gracias a las predicciones y conocimientos del modelo de IA, pueden responder en uno o dos segundos.

En julio, en el Campeonato Mundial de Fórmula E de la ABB FIA celebrado en Nueva York, el equipo Envision Racing consiguió el primer y el tercer puesto, un resultado que Tripathy atribuye al uso de lo que antes eran datos oscuros.

El oro de los datos oscuros: datos generados por humanos

Los archivos de audio de Envision Racing son un ejemplo de datos oscuros generados por humanos, destinados a ser consumidos por otros humanos, no por máquinas. Este tipo de datos oscuros puede ser extremadamente útil para las empresas, dice Kon Leong, cofundador y director general de ZL Technologies, un proveedor de plataformas de archivo de datos.

"Es increíblemente poderoso para entender cada elemento del lado humano de la empresa, incluyendo la cultura, el rendimiento, la influencia, la experiencia y el compromiso", dice. "Los empleados comparten cantidades absolutamente masivas de información y conocimientos digitales cada día, y sin embargo, hasta ahora se ha desaprovechado en gran medida".

La información contenida en los correos electrónicos, los mensajes y los archivos puede ayudar a las organizaciones a obtener información sobre quiénes son las personas más influyentes de la organización. "El 80% del tiempo de la empresa se dedica a la comunicación. Sin embargo, la analítica suele tratar datos que sólo reflejan el 1% del tiempo que pasamos", afirma Leong.

El tratamiento de datos no estructurados generados por el ser humano es un reto único. Por ejemplo, los almacenes de datos no suelen estar preparados para gestionar estas comunicaciones. Además, la recopilación de estas comunicaciones puede crear nuevos problemas para las empresas, que tienen que ver con el cumplimiento de la normativa, la privacidad y la detección legal.

"Estas capacidades de gobierno no están presentes en el concepto actual de lago de datos y, de hecho, al recoger los datos en un lago de datos, se crea otro silo que aumenta los riesgos de privacidad y cumplimiento", afirma Leong.

En cambio, las empresas también pueden dejar estos datos donde residen actualmente, simplemente añadiendo una capa de indexación y metadatos para facilitar las búsquedas. Dejar los datos en su lugar también los mantendrá dentro de las estructuras de cumplimiento existentes, dice.

La clave es una gobernanza eficaz

Otro enfoque para tratar los datos oscuros de valor y origen dudosos es empezar con la trazabilidad.

"Es un avance positivo en la industria que los datos oscuros se reconozcan ahora como un recurso sin explotar que puede aprovecharse", dice Andy Petrella, autor de Fundamentals of Data Observability, actualmente disponible en forma de pre-lanzamiento en O'Reilly. Petrella es también el fundador del proveedor de observabilidad de datos Kensu.

"El reto de utilizar datos oscuros es el bajo nivel de confianza en ellos", dice, en particular en lo que respecta a dónde y cómo se recogen los datos. "La observabilidad puede hacer que el linaje de los datos sea transparente y, por tanto, rastreable. La trazabilidad permite comprobar la calidad de los datos, lo que genera confianza a la hora de emplear estos datos para entrenar modelos de IA o actuar sobre la inteligencia que aportan".

Chuck Soha, director general de StoneTurn, una empresa de asesoramiento global especializada en cuestiones de regulación, riesgo y cumplimiento, está de acuerdo en que el enfoque común para abordar los datos oscuros -arrojar todo a un lago de datos- plantea riesgos significativos.

Esto es particularmente cierto en la industria de los servicios financieros, donde las empresas han estado enviando datos a los lagos de datos durante años. "En una empresa típica, el departamento de TI vuelca todos los datos disponibles en un lugar con algunos metadatos básicos y crea procesos para compartirlos con los equipos de negocio", dice.

Eso funciona para los equipos empresariales que tienen el talento analítico necesario en la empresa o que contratan a consultores externos para casos de uso específicos. Pero, en su mayor parte, estas iniciativas sólo tienen un éxito parcial, afirma Soha.

"Los CIO han pasado de no saber lo que no saben a saber lo que no saben", afirma.

En su lugar, las empresas deberían empezar con la gobernanza de los datos para entender qué datos hay y qué problemas pueden tener, entre ellos la calidad de los datos.

"Las partes interesadas pueden decidir si los limpian y estandarizan, o simplemente empiezan de nuevo con mejores prácticas de gestión de la información", dice Soha, y añade que invertir en la extracción de conocimientos de datos que contienen información incoherente o conflictiva sería un error.

Soha también aconseja conectar los puntos entre los buenos datos operativos ya disponibles dentro de las unidades de negocio individuales. Descubrir estas relaciones puede dar lugar a una visión rápida y útil que podría no requerir la búsqueda de datos oscuros de inmediato, afirma. "Y también podría identificar lagunas que podrían priorizar dónde empezar a buscar en los datos oscuros para llenar esos vacíos".

Por último, dice, la IA puede ser muy útil para ayudar a dar sentido a los datos no estructurados que quedan. "Mediante el uso de técnicas de aprendizaje automático y de IA, los humanos pueden mirar tan solo el 1% de los datos oscuros y clasificar su relevancia", comenta. "Luego, un modelo de aprendizaje de refuerzo puede producir rápidamente puntuaciones de relevancia para los datos restantes para priorizar qué datos se deben mirar más de cerca".

Utilizar la IA para extraer valor

Entre las soluciones comunes impulsadas por la IA para procesar datos oscuros se encuentran Textract de Amazon, Azure Cognitive Services de Microsoft y Datacap de IBM, así como las API de Cloud Vision, Document, AutoML y NLP de Google.

En la asociación de Genpact con Envision Racing, Genpact codificó los algoritmos de aprendizaje automático internamente, dice Tripathy. Esto requirió conocimientos de Docker, Kubernetes, Java y Python, así como de PNL, deep learning y desarrollo de algoritmos de aprendizaje automático, afirma, y añade que un arquitecto de MLOps gestionó todo el proceso.

Por desgracia, estas habilidades son difíciles de conseguir. En un informe publicado el pasado otoño por Splunk, sólo entre el 10% y el 15% de los más de 1.300 responsables de la toma de decisiones empresariales y de TI encuestados afirmaron que sus organizaciones están utilizando la IA para resolver el problema de los datos oscuros. La falta de conocimientos necesarios era el principal obstáculo para hacer uso de los datos oscuros, sólo superado por el volumen de los propios datos.

Un problema (y una oportunidad) en aumento

Mientras tanto, los datos oscuros siguen siendo un creciente tesoro de riesgos, y de oportunidades. Se estima que la proporción de datos oscuros del total de datos empresariales varía entre el 40% y el 90%, dependiendo del sector.

Según un informe de julio del Enterprise Strategy Group, el 47% de todos los datos son oscuros y una quinta parte de los encuestados afirma que más del 70% de sus datos lo son. La encuesta de Splunk mostró resultados similares, con el 55% de todos los datos de la empresa en promedio siendo datos oscuros y un tercio de los encuestados diciendo que el 75% o más de los datos de su organización son de este tipo.

Y es probable que la situación empeore antes de mejorar, ya que el 60% de los encuestados afirman que más de la mitad de los datos de su organización no se capturan en absoluto y gran parte de ellos ni siquiera se sabe que existen. A medida que se encuentren y almacenen, la cantidad de datos oscuros va a seguir aumentando.

Ya es hora de que los CIO elaboren un plan sobre cómo tratarlos, con la vista puesta en aprovechar al máximo cualquier dato oscuro que resulte prometedor para crear nuevo valor para el negocio.

Imprimir Subir

TE PUEDE INTERESAR...

Tendencias

Siete tendencias de una estrategia empresarial en la nube para 2024

Industria y Utilities

Aciturri avanza hacia la excelencia operativa por el sendero de la digitalización

Liderazgo & Gestión TI

Glintt Global crea un nuevo Centro de Excelencia especializado en IA generativa

Tendencias

Las lecciones de aprendidas de Linkedin al implementar LLM para millones de usuarios

Unicaja Banco confía su transformación digital a Kyndryl.

Banca y seguros

Unicaja optimiza su plataforma tecnológica con vistas a eficientar su ‘mainframe’

Tendencias

Justicia algorítmica y diversidad de talento, garantías para una IA humanista

Tendencias

La innovación de las startups impulsa la mejora de la experiencia de cliente

Transporte & Logística

Grupo La Poste mejora la gobernanza de su sistema de información

Tendencias

La Historia Hispánica, ahora también en clave digital

Tendencias

De los "egosistemas" a los ecosistemas: el poder transformador de los gemelos digitales

Tendencias

La fiebre del oro de la IA generativa impulsa el gasto en TI, pero su rentabilidad está en entredicho

Administraciones Públicas

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

Administraciones Públicas

Geografía y copilotos, aliados para los CIO de la Administración

inteligencia artificial y ciberseguridad

Tendencias

Los copilotos de IA generativa no convencen a los CIO

Administraciones Públicas

Radiografía de la Administración pública local y regional en clave tecnológica

Administraciones Públicas

El Viejo Continente se abre camino hacia la Década Digital 2030

CASOS DE ÉXITO

Cuatrecasas apuesta por la inteligencia artificial para mejorar el trabajo de sus abogados

17 ABR 2024

La firma, cuenta Francesc Muñoz, su CIO, apuesta constantemente por la innovación y la adopción de nuevas tecnologías para seguir mejorando y aportar mayor valor y eficiencia a los clientes.

La innovación alcanza velocidad de crucero en el vigésimo aniversario de Vueling

16 ABR 2024

Tras el despegue de la estrategia de transformación digital de la aerolínea y la consolidación de la innovación como motor propulsor, Javier Álvarez, CIO de Vueling, descifra cómo abordan el desafío de mejora continua.

A FONDO

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

La división española de Thales Alenia Space, al mando de las comunicaciones en la misión NEO Surveyor de la NASA

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Tecnología e innovación, el Olimpo del turismo

Accede a nuestra publicación de canal

Documentos ComputerWorld

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

12 FEB 2024

Para muchas organizaciones, la red empresarial es el eslabón más débil en su cadena de infraestructura. Por eso, las empresas deberán tener una red moderna, ágil yresiliente. Averigua en este libro electrónico a qué desafíos de red se enfrentan las compañías y cómo abordarlos.

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

15 ENE 2024

La capacidad de adaptarse y evolucionar rápidamente es esencial para el éxito de cualquier empresa y, en este contexto, la elección de una infraestructura tecnológica sólida es vital. SAP S/4HANA Cloud, Public Edition emerge como una opción revolucionaria para impulsar la eficiencia operativa y la innovación empresarial.