Big Data
IA

¿Qué son los datos sintéticos? Datos generados para ayudar a tu estrategia de IA

Los datos generados artificialmente pueden utilizarse en lugar de datos históricos reales para entrenar modelos de IA, cuando los conjuntos de datos reales carecen de calidad, volumen o variedad.

inteligencia artificial

Datos sintéticos definidos

Los datos sintéticos son información generada artificialmente que puede utilizarse en lugar de datos históricos reales para entrenar modelos de IA cuando los conjuntos de datos reales carecen de calidad, volumen o variedad. Los datos sintéticos también pueden ser una herramienta vital para los esfuerzos de IA de las empresas cuando los datos disponibles no satisfacen las necesidades del negocio o podrían crear problemas de privacidad si se utilizan para entrenar modelos de aprendizaje automático, probar software o similares.

Según la analista de Gartner Svetlana Sicular, en 2024, el 60% de los datos utilizados para el desarrollo de soluciones de IA y análisis serán generados sintéticamente, frente al 1% de 2021.

 

Casos de uso de datos sintéticos

Los datos artificiales tienen muchos usos en las estrategias de IA de las empresas. Como sustituto de los datos reales, los datos sintéticos pueden ser útiles en los siguientes escenarios:

Para entrenar modelos cuando faltan datos del mundo real: Los sistemas de IA y ML requieren cantidades masivas de datos. Para algunos casos de uso, simplemente no hay suficientes datos disponibles, ya sea porque el caso de uso ocurre con muy poca frecuencia, o el caso de uso es nuevo y no hay muchos datos históricos disponibles todavía. Los datos sintéticos también pueden reducir los costes cuando la recopilación o la compra de datos del mundo real es prohibitiva.

Para llenar las lagunas de los datos de entrenamiento: Algunos conjuntos de datos no reflejan completamente los casos de uso de una empresa. Por ejemplo, un sistema entrenado para reconocer números de teléfono puede no tener suficientes números internacionales con los que trabajar.

Otro problema común es equilibrar un conjunto de datos. Por ejemplo, un conjunto de datos históricos puede estar compuesto por un 99% de transacciones no fraudulentas y menos de un 1% de fraudulentas, dice John Blankenbaker, científico principal de datos de SSA & Co. "Muchos modelos decidirán que la política más acertada será etiquetar todas las transacciones como no fraudulentas".

Los datos sintéticos pueden ayudar a equilibrar el conjunto de datos, pero hay que hacerlo con mucho cuidado. "Sólo será útil si el proceso de síntesis capta lo que sea de una transacción que indique fraude", dice Blankenbaker. "Lo cual es poco probable que sea obvio, porque entonces usaríamos eso como nuestro detector de fraude".

Casos de uso de "cola larga": A medida que la IA se vuelve omnipresente en las organizaciones, las empresas se están quedando sin casos de uso en los que los datos de entrenamiento necesarios son abundantes y están fácilmente disponibles. Una vez que esos proyectos muestren su éxito, los líderes empresariales querrán que se utilicen los mismos enfoques para sus propios casos de uso.

Para acelerar el desarrollo de modelos: La recopilación de datos de entrenamiento del mundo real puede requerir tiempo, ya que la información se recopila, se etiqueta, se procesa y se somete a controles de conformidad y de otro tipo. Esto puede ralentizar el desarrollo de nuevos modelos de IA. Con los datos sintéticos, los modelos pueden entrenarse y calibrarse antes de que los datos del mundo real estén disponibles.

Para simular el futuro: Cuando las modas cambian, los datos históricos pueden quedar obsoletos de la noche a la mañana. Por ejemplo, cuando la gente cambió los auriculares con cable por los inalámbricos, todos esos datos históricos de los clientes perdieron su valor predictivo. Los motores de recomendación que se basan en datos de entrenamiento antiguos podrían seguir recomendando opciones con cable. Sustituir o aumentar los datos históricos con datos sintéticos que tengan en cuenta el cambio de moda puede ayudar a mantener la relevancia de los motores de recomendación.

Simular futuros alternativos: Si se avecina un cambio y no está claro qué dirección tomarán los clientes, los datos simulados pueden ayudar a las empresas a realizar simulaciones de escenarios y estar preparadas para cualquiera de las dos opciones.

Para simular eventos de "cisne negro": Ciertas situaciones surgen muy raramente y pueden no estar presentes en los datos históricos, pero si tuvieran un impacto dramático en una organización si ocurrieran, entonces es necesario estar preparado. El uso de datos sintéticos para simular esas situaciones puede ayudar a una empresa a modelar esas respuestas.

Para simular el metaverso: El metaverso -simulaciones virtuales en 3D de entornos de juego, sociales y empresariales- requerirá una enorme cantidad de contenido. Habrá que crear salas, edificios, paisajes, etc., y contratar a artistas 3D para que creen todo este contenido desde cero tendrá un coste prohibitivo. Los datos sintéticos pueden llenar algunas de las lagunas para crear escenarios y objetos realistas y apropiados para entornos, eventos e interacciones virtuales.

Para generar imágenes de marketing: Los anunciantes ya están creando imágenes sintéticas para mostrar sus productos. Por ejemplo, una fotografía de una modelo con un jersey de un color puede convertirse en fotos realistas de la misma modelo con todas las versiones del mismo jersey. También existen herramientas de generación de imágenes que pueden incluso generar rostros realistas y únicos o mostrar muebles en diferentes disposiciones.

Para las pruebas de software: El uso de datos reales para probar un nuevo software puede crear problemas de privacidad y seguridad. Los datos sintéticos que parecen reales pero no lo son permiten probar el software en toda la gama de casos de uso sin poner en riesgo los datos reales. "Si queremos ver cómo nuestra infraestructura maneja un gran número de cuentas de usuario, es fácil escribir un programa que se conecte a nuestro sitio web y registre usuarios sintéticos", dice Blankenbaker de la SSA.

Para crear gemelos digitales: En los casos judiciales, los abogados a veces crean un jurado en la sombra para probar los argumentos. Las organizaciones pueden hacer algo similar utilizando datos sintéticos. Por ejemplo, en 2019, la Administración de Trabajo y Bienestar de Noruega creó una versión sintética de toda su población. Los datos se regeneran diariamente, dice Sicular de Gartner, y son utilizados por una serie de organizaciones externas.

En lugar de datos médicos y financieros: Utilizar datos reales de clientes o pacientes para entrenar modelos de IA, ejecutar simulaciones o encontrar tratamientos o correlaciones útiles puede ser muy arriesgado desde el punto de vista del cumplimiento de la normativa. Incluso los datos depurados o anonimizados pueden ser objeto de ingeniería inversa para recuperar los datos originales, afirma Andy Thurai, vicepresidente y analista principal de Constellation Research. Los datos sintéticos no se pueden desanonimizar, pero pueden utilizarse para encontrar información valiosa.

Para ventas y marketing: Cuando un equipo de ventas acude a un cliente para demostrarle un producto o servicio que ingiere datos, puede ser útil utilizar muestras que sean lo más parecidas posible al caso de uso del propio cliente. Utilizar datos de otro cliente sería una violación de la privacidad. Los datos sintéticos pueden permitir al equipo de ventas poner a prueba el producto en un caso de uso similar al del cliente, sin divulgar información sensible.

"Una startup que está intentando crear una aplicación de atención sanitaria puede construir todo su marco utilizando datos sintéticos de PHI [información sanitaria protegida] para crear un marco de extremo a extremo para la posible demostración a los clientes, en lugar de tener que preguntarse y esperar a hacer las conexiones adecuadas para utilizar datos reales de PHI", dice Priya Iragavarapu, vicepresidenta en el centro de excelencia de datos de AArete, una consultora de gestión global.

Para probar los sistemas de IA para detectar prejuicios: Cuando los sistemas de IA discriminan por motivos de raza, religión u otras consideraciones ilegales, pueden crear una responsabilidad de cumplimiento o un desastre de relaciones públicas, o ambas cosas. Con los sistemas de IA de "caja negra" y las nuevas tecnologías de IA, como las redes neuronales, puede ser difícil averiguar por qué una IA hace la recomendación que hace. Probar los sistemas de IA con conjuntos de datos sintéticos diseñados para imitar la demografía del mundo real puede ayudar a descubrir estos sesgos ocultos.

 

Generación de datos sintéticos

A veces, la generación de datos sintéticos puede ser muy sencilla. Una lista de nombres, por ejemplo, puede generarse combinando un nombre elegido al azar de una lista de nombres y un apellido de una lista de apellidos. Los códigos postales pueden elegirse aleatoriamente de una lista de códigos postales. Esto puede ser suficiente para algunas aplicaciones. Sin embargo, para otros fines, puede ser necesario equilibrar la lista para que, por ejemplo, los datos de gasto sintético se correlacionen con los patrones de gasto habituales en esos códigos postales.

La mayoría de los conjuntos de datos todavía se producen manualmente con SQL para la extracción de datos y la anonimización, y luego se limpian utilizando lenguajes programáticos estándar, dice Steven Karan, vicepresidente y jefe de insights y datos de Capgemini Canadá.

"Todavía no ha llegado al mercado una solución comercial lista para usar", afirma. "Aunque hay un pequeño puñado de startups que ofrecen soluciones de datos sintéticos, ninguna de ellas ha alcanzado un nivel de adopción crítico".

En su lugar, la mayoría de los científicos de datos aprovechan los paquetes preconstruidos para generar conjuntos de datos sintéticos, dice.

Generar conjuntos de datos sintéticos que sean estadísticamente significativos y reflejen los datos reales de forma relevante para los casos de uso puede ser un reto. Recientemente, la IA y los algoritmos de aprendizaje automático se han utilizado para crear datos sintéticos más útiles y representativos. Por ejemplo, los científicos de datos acaban de empezar a utilizar redes generativas adversariales (GAN), dice Iragavarapu de AArete.

"Es un tipo de trabajo neuronal que ha dado un gran salto para hacer realidad la generación de datos sintéticos", dice.

El funcionamiento de una GAN consiste en que un sistema genera datos —por ejemplo, la imagen de un gato— y un segundo sistema intenta adivinar si la imagen es real o falsa. Al enfrentar a los dos sistemas en una carrera, las imágenes generadas se vuelven rápidamente indistinguibles de la realidad.

Herramientas de datos sintéticos

Las organizaciones interesadas en generar sus propios datos sintéticos disponen actualmente de una serie de herramientas, la mayoría de las cuales son de código abierto. A continuación se presentan algunas de las herramientas más populares para crear datos sintéticos:

GPT-J: alternativa de código abierto a la herramienta de generación de texto GPT-3 de OpenAI

Synthea: Herramienta de código abierto popular en el campo de la medicina

scikit-learn: Se utiliza para generar conjuntos de datos sintéticos para su uso en regresión, agrupación y clasificación con el objetivo de producir conjuntos de datos que puedan permitir predicciones, según Karan de Capgemini

symPy: Utilizado por los científicos de datos que necesitan conjuntos de datos sintéticos más personalizados para necesidades más específicas, ya que permite la creación y el desarrollo de expresiones simbólicas personalizadas

pydbgen: Se utiliza para generar conjuntos de datos comunes, como números de teléfono o direcciones de correo electrónico

synthpop: Un paquete de R utilizado para generar datos demográficos sintéticos

faker: Un paquete de Python que puede generar datos sintéticos como nombres, direcciones, correos electrónicos, números de la Seguridad Social y otros datos

SDV: una herramienta de Python para generar tablas, bases de datos relacionales y modelos de series temporales

 

Mejores prácticas de datos sintéticos

Las empresas que empiezan a experimentar con datos sintéticos deberían empezar con ejemplos bien estructurados, sugiere Sicular de Gartner. Estos casos de uso pueden ser los más fáciles de desplegar y ofrecen el mayor valor inicial. Por ejemplo, una base de datos de nombres y números de la Seguridad Social puede sustituirse fácilmente por un equivalente sintético que ofrezca beneficios empresariales sin crear responsabilidades de cumplimiento.

Thurai, de Constellation, recomienda no utilizar datos sintéticos tanto para la creación de modelos como para las pruebas. "Eso dará lugar a falsos positivos", dice. "Y no hay que ir a lo barato y utilizar todos los datos sintéticos. También necesitarás una buena cantidad de datos del mundo real para mezclarlos".

Otro error sería utilizar datos sintéticos para averiguar si las cosas están relacionadas causalmente, dice Iragavarapu, de AArete, o generar valores atípicos sintéticos a menos que haya una lógica específica por la que se generen.

"Y siempre debemos citar explícitamente dónde utilizamos datos sintéticos frente a datos reales para seguir siendo transparentes para nuestros clientes", añade.

 

Empresas de datos sintéticos

Hay varias empresas que intervienen en la creación de datos sintéticos para utilizarlos en sus modelos, como las siguientes:

BiText

Datagen

Diveplane

Gretel

Hazy

AI

Mostly AI

OpenAI

Sintetizado

Tónica

Ydata



Contenido patrocinado

Registro:

Eventos:

 

Partnerzones

Revistas Digitales

DealerWorld Digital

IDG Research

Documentos ComputerWorld