Big Data
Analítica de datos

Cómo extraer el valor oculto de los datos oscuros

Lo más probable es que la mayor parte de los datos que recopilas -desde las comunicaciones humanas hasta los registros de las máquinas- se estén acumulando con pocos planes para aprovechar su potencial. El buen gobierno y la IA pueden ayudar.

datos

Los responsables de TI que tratan de obtener valor empresarial de los datos que recogen sus empresas se enfrentan a un sinfín de retos. Quizá el menos comprendido sea la oportunidad perdida de no aprovechar los datos que se crean, y a menudo se almacenan, pero con los que rara vez se interactúa.

Los denominados ‘datos oscuros’, llamados así por la materia oscura de la física, son información que se recoge de forma rutinaria en el transcurso de la actividad empresarial: la generan los empleados, los clientes y los procesos empresariales. Se genera en forma de archivos de registro por parte de máquinas, aplicaciones y sistemas de seguridad. Se trata de documentos que deben guardarse para cumplir con la normativa y de datos sensibles que nunca deberían guardarse, pero que aún así lo hacen.

Según Gartner, la mayor parte del universo de información de una empresa se compone de datos oscuros, y muchas ni siquiera saben cuántos de estos datos tienen. Almacenarlos aumenta los riesgos de cumplimiento y ciberseguridad y, por supuesto, también los costes.

Averiguar qué datos oscuros se tienen, dónde se guardan y qué información contienen es un paso esencial para garantizar que las partes valiosas de estos datos oscuros estén seguras y que se eliminen las que no deberían conservarse. Pero la verdadera ventaja de desenterrar estas bolsas de datos ocultas puede ser la de ponerlas en práctica para beneficiar realmente a la empresa.

No obstante, la extracción de datos oscuros no es una tarea fácil. Vienen en una gran variedad de formatos, pueden estar completamente sin formato, encerrados en documentos escaneados o en archivos de audio o vídeo, por ejemplo.

A continuación, se muestra cómo algunas organizaciones están transformando los datos oscuros en oportunidades de negocio y qué consejos tienen los expertos del sector para los líderes de TI que buscan aprovecharlos.

 

Audio codificado de pilotos de carreras

Durante cinco años, Envision Racing ha recopilado grabaciones de audio de más de 100 carreras de Fórmula E, cada una con más de 20 pilotos.

"Las transmisiones de radio están disponibles en frecuencias abiertas para que cualquiera pueda escucharlas", dice Amaresh Tripathy, líder global de análisis en Genpact, una empresa de consultoría que ayudó a Envision Racing a hacer uso de estos datos.

Anteriormente, los ingenieros del equipo con sede en el Reino Unido intentaban utilizar estas transmisiones de audio en tiempo real durante las carreras, pero los nombres en clave y los acrónimos que utilizaban los pilotos dificultaban la comprensión de lo que se decía y su aprovechamiento, ya que entender lo que decían otros pilotos podría ayudar a los de Envision Racing con su estrategia de carrera, afirma Tripathy.

"Por ejemplo, cuándo utilizar el modo de ataque. Cuándo adelantar a un piloto. Cuándo aplicar los frenos", dice.

Envision Racing también recogía datos de los sensores de sus propios coches, como los de los neumáticos, las baterías y los frenos, y adquiría datos externos de proveedores, como la velocidad del viento y las precipitaciones.

Genpact y Envision Racing trabajaron juntos para sacar partido a estos flujos de datos, utilizando el procesamiento del lenguaje natural para crear modelos de deep learning para analizarlos. El proceso duró seis meses, desde la preparación de la canalización de datos hasta la ingesta de los mismos, pasando por el filtrado del ruido y la obtención de conversaciones significativas.

Tripathy afirma que los humanos tardan entre cinco y diez segundos en saber qué están escuchando, un retraso que hacía que las comunicaciones por radio fueran irrelevantes. Ahora, gracias a las predicciones y conocimientos del modelo de IA, pueden responder en uno o dos segundos.

En julio, en el Campeonato Mundial de Fórmula E de la ABB FIA celebrado en Nueva York, el equipo Envision Racing consiguió el primer y el tercer puesto, un resultado que Tripathy atribuye al uso de lo que antes eran datos oscuros.

 

El oro de los datos oscuros: datos generados por humanos

Los archivos de audio de Envision Racing son un ejemplo de datos oscuros generados por humanos, destinados a ser consumidos por otros humanos, no por máquinas. Este tipo de datos oscuros puede ser extremadamente útil para las empresas, dice Kon Leong, cofundador y director general de ZL Technologies, un proveedor de plataformas de archivo de datos.

"Es increíblemente poderoso para entender cada elemento del lado humano de la empresa, incluyendo la cultura, el rendimiento, la influencia, la experiencia y el compromiso", dice. "Los empleados comparten cantidades absolutamente masivas de información y conocimientos digitales cada día, y sin embargo, hasta ahora se ha desaprovechado en gran medida".

La información contenida en los correos electrónicos, los mensajes y los archivos puede ayudar a las organizaciones a obtener información sobre quiénes son las personas más influyentes de la organización. "El 80% del tiempo de la empresa se dedica a la comunicación. Sin embargo, la analítica suele tratar datos que sólo reflejan el 1% del tiempo que pasamos", afirma Leong.

El tratamiento de datos no estructurados generados por el ser humano es un reto único. Por ejemplo, los almacenes de datos no suelen estar preparados para gestionar estas comunicaciones. Además, la recopilación de estas comunicaciones puede crear nuevos problemas para las empresas, que tienen que ver con el cumplimiento de la normativa, la privacidad y la detección legal.

"Estas capacidades de gobierno no están presentes en el concepto actual de lago de datos y, de hecho, al recoger los datos en un lago de datos, se crea otro silo que aumenta los riesgos de privacidad y cumplimiento", afirma Leong.

En cambio, las empresas también pueden dejar estos datos donde residen actualmente, simplemente añadiendo una capa de indexación y metadatos para facilitar las búsquedas. Dejar los datos en su lugar también los mantendrá dentro de las estructuras de cumplimiento existentes, dice.

 

La clave es una gobernanza eficaz

Otro enfoque para tratar los datos oscuros de valor y origen dudosos es empezar con la trazabilidad.

"Es un avance positivo en la industria que los datos oscuros se reconozcan ahora como un recurso sin explotar que puede aprovecharse", dice Andy Petrella, autor de Fundamentals of Data Observability, actualmente disponible en forma de pre-lanzamiento en O'Reilly. Petrella es también el fundador del proveedor de observabilidad de datos Kensu.

"El reto de utilizar datos oscuros es el bajo nivel de confianza en ellos", dice, en particular en lo que respecta a dónde y cómo se recogen los datos. "La observabilidad puede hacer que el linaje de los datos sea transparente y, por tanto, rastreable. La trazabilidad permite comprobar la calidad de los datos, lo que genera confianza a la hora de emplear estos datos para entrenar modelos de IA o actuar sobre la inteligencia que aportan".

Chuck Soha, director general de StoneTurn, una empresa de asesoramiento global especializada en cuestiones de regulación, riesgo y cumplimiento, está de acuerdo en que el enfoque común para abordar los datos oscuros -arrojar todo a un lago de datos- plantea riesgos significativos.

Esto es particularmente cierto en la industria de los servicios financieros, donde las empresas han estado enviando datos a los lagos de datos durante años. "En una empresa típica, el departamento de TI vuelca todos los datos disponibles en un lugar con algunos metadatos básicos y crea procesos para compartirlos con los equipos de negocio", dice.

Eso funciona para los equipos empresariales que tienen el talento analítico necesario en la empresa o que contratan a consultores externos para casos de uso específicos. Pero, en su mayor parte, estas iniciativas sólo tienen un éxito parcial, afirma Soha.

"Los CIO han pasado de no saber lo que no saben a saber lo que no saben", afirma.

En su lugar, las empresas deberían empezar con la gobernanza de los datos para entender qué datos hay y qué problemas pueden tener, entre ellos la calidad de los datos.

"Las partes interesadas pueden decidir si los limpian y estandarizan, o simplemente empiezan de nuevo con mejores prácticas de gestión de la información", dice Soha, y añade que invertir en la extracción de conocimientos de datos que contienen información incoherente o conflictiva sería un error.

Soha también aconseja conectar los puntos entre los buenos datos operativos ya disponibles dentro de las unidades de negocio individuales. Descubrir estas relaciones puede dar lugar a una visión rápida y útil que podría no requerir la búsqueda de datos oscuros de inmediato, afirma. "Y también podría identificar lagunas que podrían priorizar dónde empezar a buscar en los datos oscuros para llenar esos vacíos".

Por último, dice, la IA puede ser muy útil para ayudar a dar sentido a los datos no estructurados que quedan. "Mediante el uso de técnicas de aprendizaje automático y de IA, los humanos pueden mirar tan solo el 1% de los datos oscuros y clasificar su relevancia", comenta. "Luego, un modelo de aprendizaje de refuerzo puede producir rápidamente puntuaciones de relevancia para los datos restantes para priorizar qué datos se deben mirar más de cerca".

 

Utilizar la IA para extraer valor

Entre las soluciones comunes impulsadas por la IA para procesar datos oscuros se encuentran Textract de Amazon, Azure Cognitive Services de Microsoft y Datacap de IBM, así como las API de Cloud Vision, Document, AutoML y NLP de Google.

En la asociación de Genpact con Envision Racing, Genpact codificó los algoritmos de aprendizaje automático internamente, dice Tripathy. Esto requirió conocimientos de Docker, Kubernetes, Java y Python, así como de PNL, deep learning y desarrollo de algoritmos de aprendizaje automático, afirma, y añade que un arquitecto de MLOps gestionó todo el proceso.

Por desgracia, estas habilidades son difíciles de conseguir. En un informe publicado el pasado otoño por Splunk, sólo entre el 10% y el 15% de los más de 1.300 responsables de la toma de decisiones empresariales y de TI encuestados afirmaron que sus organizaciones están utilizando la IA para resolver el problema de los datos oscuros. La falta de conocimientos necesarios era el principal obstáculo para hacer uso de los datos oscuros, sólo superado por el volumen de los propios datos.

 

Un problema (y una oportunidad) en aumento

Mientras tanto, los datos oscuros siguen siendo un creciente tesoro de riesgos, y de oportunidades. Se estima que la proporción de datos oscuros del total de datos empresariales varía entre el 40% y el 90%, dependiendo del sector.

Según un informe de julio del Enterprise Strategy Group, el 47% de todos los datos son oscuros y una quinta parte de los encuestados afirma que más del 70% de sus datos lo son. La encuesta de Splunk mostró resultados similares, con el 55% de todos los datos de la empresa en promedio siendo datos oscuros y un tercio de los encuestados diciendo que el 75% o más de los datos de su organización son de este tipo. 

Y es probable que la situación empeore antes de mejorar, ya que el 60% de los encuestados afirman que más de la mitad de los datos de su organización no se capturan en absoluto y gran parte de ellos ni siquiera se sabe que existen. A medida que se encuentren y almacenen, la cantidad de datos oscuros va a seguir aumentando.

Ya es hora de que los CIO elaboren un plan sobre cómo tratarlos, con la vista puesta en aprovechar al máximo cualquier dato oscuro que resulte prometedor para crear nuevo valor para el negocio.



TE PUEDE INTERESAR...

Nuevo número de nuestra revista de canal 
 
DealerWorld Digital

 

Cobertura de nuestros encuentros

 

Documentos ComputerWorld



Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?