Inteligencia artificial
Machine learning
Empresa
Analítica de datos

¿Cómo podemos entrenar a la inteligencia artificial sin usar datos de personas reales?

Si tú también te has preguntado cómo lograr este cometido, la respuesta está en los datos sintéticos. Se trata de una fórmula para entrenar algoritmos basada en la protección de la privacidad de los usuarios.

analítica de datos, datos
Créditos: Carlos Muza (Unsplash).

Cada usuario de Internet genera 1,7 MB de datos por segundo, en promedio, según la firma de ‘software’ en la nube DOMO. Pero no todas las empresas pueden consultarlos y utilizarlos. Sin acceso a esa información, puede resultar difícil crear herramientas que funcionen adecuadamente. Es ahí donde entran en escena los datos sintéticos, que en ocasiones sustituyen a los reales para entrenar algoritmos de aprendizaje automático e inteligencia artificial (IA). Una fórmula adoptada cada vez por más desarrolladores e ingenieros en el sector TI con el fin de  proteger la privacidad de los usuarios y reducir el tiempo necesario para disponer de datos anónimos y de calidad. Desciframos, de la mano de un artículo publicado por BBVA, un nuevo concepto con notoriedad, alcance y proyección de futuro.

 

¿Qué son los datos sintéticos?

Los datos sintéticos se refieren a cualquier información creada artificialmente que no representa eventos u objetos del mundo real, aseguran desde la entidad bancaria. “El concepto de dato sintético no es para nada nuevo, este tipo de datos artificiales se viene construyendo desde hace años”, afirma Mario Bricio, cofundador de la empresa de IA Dedomena. En la actualidad se usan, por ejemplo, para entrenar vehículos autónomos, desarrollar dispositivos médicos o detectar fraudes. Normalmente, se emplean en dos situaciones: cuando los modelos recurren a información personal o sensible en la fase de entrenamiento y cuando es preciso incrementar el volumen de datos de calidad, dado que no hay suficientes observaciones.

 

¿Cómo se generan?

Existen varias técnicas para generar datos sintéticos. Muchas de las técnicas utilizadas para generar datos sintéticos se basan en algoritmos de aprendizaje profundo que aprenden las interrelaciones, patrones, distribuciones y características estadísticas de los datos. De esta forma, según Bricio, son capaces de generar datos sintéticos “casi de la misma calidad que los originales y totalmente anónimos”.

Entre las técnicas que se usan para generar datos sintéticos, están los Variational Autoencoders (capaces de aprender la distribución de datos subyacente y generar un modelo complejo), los Generative Adversarial Networks (capaces de producir representaciones realistas y muy detalladas) o los Neural Radiance Field (una técnica para crear nuevos puntos de vista a partir de una escena 3D parcialmente conocida). Todas estas tecnologías aún tienen margen de mejora, ya que no están suficientemente maduras.

 

Ventajas y particularidades

Utilizar datos sintéticos para entrenar modelos de IA tiene múltiples ventajas. Entre ellas se encuentran volver viable un proyecto, acelerar significativamente las iniciativas de inteligencia artificial y mejorar sustancialmente los resultados de los algoritmos de machine learning, lo que les permite extraer el máximo valor de los datos. También puede ser útil para garantizar la privacidad de los clientes. Los datos reales contienen información confidencial y privada de los usuarios, por lo que no se pueden compartir libremente, algo que no ocurre en el caso de los sintéticos. Estos permiten a las empresas  crear aplicaciones y soluciones de software basadas en datos sin exponer información de identificación personal de sus clientes. Es decir, los conjuntos de datos sintéticos se pueden publicar, compartir y analizar de manera más abierta, sin revelar información de un individuo real.

Los datos sintéticos tienen sus propias particularidades, que los desarrolladores deben tener en cuenta a la hora de crearlos. Por ejemplo, cuando se basan en datos del mundo real, si son demasiado similares pueden surgir problemas de privacidad. Algo especialmente importante si los datos originales contienen información de identificación personal que, además, puede estar sujeta a leyes de privacidad.

Por otro lado, el Supervisor Europeo de Protección de Datos aconseja realizar una evaluación de garantía de privacidad para garantizar que los datos sintéticos no sean datos personales reales, ya que en ocasiones los enfoques de anonimización no brindan garantías de privacidad rigurosas. “Esta garantía evalúa hasta qué punto las personas ??pueden identificarse en los datos sintéticos y cuántos datos nuevos sobre ellas ??se revelarían tras una identificación exitosa”, afirma el organismo. Además de que puede ser difícil crear datos realistas que no revelen información privada de los usuarios, hay que tener especial precaución en que la calidad de los datos sintéticos no esté sesgada.



TE PUEDE INTERESAR...

CASOS DE ÉXITO

Accede a nuestra publicación de canal

DealerWorld Digital

Documentos ComputerWorld

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS