¿Cómo podemos entrenar a la inteligencia artificial sin usar datos de personas reales?

Si tú también te has preguntado cómo lograr este cometido, la respuesta está en los datos sintéticos. Se trata de una fórmula para entrenar algoritmos basada en la protección de la privacidad de los usuarios.

¿Qué son los datos sintéticos?

Los datos sintéticos se refieren a cualquier información creada artificialmente que no representa eventos u objetos del mundo real, aseguran desde la entidad bancaria. “El concepto de dato sintético no es para nada nuevo, este tipo de datos artificiales se viene construyendo desde hace años”, afirma Mario Bricio, cofundador de la empresa de IA Dedomena. En la actualidad se usan, por ejemplo, para entrenar vehículos autónomos, desarrollar dispositivos médicos o detectar fraudes. Normalmente, se emplean en dos situaciones: cuando los modelos recurren a información personal o sensible en la fase de entrenamiento y cuando es preciso incrementar el volumen de datos de calidad, dado que no hay suficientes observaciones.

¿Cómo se generan?

Existen varias técnicas para generar datos sintéticos. Muchas de las técnicas utilizadas para generar datos sintéticos se basan en algoritmos de aprendizaje profundo que aprenden las interrelaciones, patrones, distribuciones y características estadísticas de los datos. De esta forma, según Bricio, son capaces de generar datos sintéticos “casi de la misma calidad que los originales y totalmente anónimos”.

Entre las técnicas que se usan para generar datos sintéticos, están los Variational Autoencoders (capaces de aprender la distribución de datos subyacente y generar un modelo complejo), los Generative Adversarial Networks (capaces de producir representaciones realistas y muy detalladas) o los Neural Radiance Field (una técnica para crear nuevos puntos de vista a partir de una escena 3D parcialmente conocida). Todas estas tecnologías aún tienen margen de mejora, ya que no están suficientemente maduras.

Ventajas y particularidades

Utilizar datos sintéticos para entrenar modelos de IA tiene múltiples ventajas. Entre ellas se encuentran volver viable un proyecto, acelerar significativamente las iniciativas de inteligencia artificial y mejorar sustancialmente los resultados de los algoritmos de machine learning, lo que les permite extraer el máximo valor de los datos. También puede ser útil para garantizar la privacidad de los clientes. Los datos reales contienen información confidencial y privada de los usuarios, por lo que no se pueden compartir libremente, algo que no ocurre en el caso de los sintéticos. Estos permiten a las empresas crear aplicaciones y soluciones de software basadas en datos sin exponer información de identificación personal de sus clientes. Es decir, los conjuntos de datos sintéticos se pueden publicar, compartir y analizar de manera más abierta, sin revelar información de un individuo real.

Los datos sintéticos tienen sus propias particularidades, que los desarrolladores deben tener en cuenta a la hora de crearlos. Por ejemplo, cuando se basan en datos del mundo real, si son demasiado similares pueden surgir problemas de privacidad. Algo especialmente importante si los datos originales contienen información de identificación personal que, además, puede estar sujeta a leyes de privacidad.

Por otro lado, el Supervisor Europeo de Protección de Datos aconseja realizar una evaluación de garantía de privacidad para garantizar que los datos sintéticos no sean datos personales reales, ya que en ocasiones los enfoques de anonimización no brindan garantías de privacidad rigurosas. “Esta garantía evalúa hasta qué punto las personas ??pueden identificarse en los datos sintéticos y cuántos datos nuevos sobre ellas ??se revelarían tras una identificación exitosa”, afirma el organismo. Además de que puede ser difícil crear datos realistas que no revelen información privada de los usuarios, hay que tener especial precaución en que la calidad de los datos sintéticos no esté sesgada.

Imprimir Subir

TE PUEDE INTERESAR...

Tendencias

Justicia algorítmica y diversidad de talento, garantías para una IA humanista

Tendencias

La innovación de las startups impulsa la mejora de la experiencia de cliente

Transporte & Logística

Grupo La Poste mejora la gobernanza de su sistema de información

Tendencias

La Historia Hispánica, ahora también en clave digital

Tendencias

De los "egosistemas" a los ecosistemas: el poder transformador de los gemelos digitales

Tendencias

La fiebre del oro de la IA generativa impulsa el gasto en TI, pero su rentabilidad está en entredicho

Administraciones Públicas

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

Administraciones Públicas

Geografía y copilotos, aliados para los CIO de la Administración

inteligencia artificial y ciberseguridad

Tendencias

Los copilotos de IA generativa no convencen a los CIO

Administraciones Públicas

Radiografía de la Administración pública local y regional en clave tecnológica

Administraciones Públicas

El Viejo Continente se abre camino hacia la Década Digital 2030

Administraciones Públicas

De la Administración electrónica a la burocracia invisible

Tendencias

El grupo de centros deportivos GO fit optimiza su gestión financiera con IA y 'deep learning'

Liderazgo & Gestión TI

¿Qué es un proveedor de servicios gestionados? La externalización estratégica de servicios informáticos

Liderazgo & Gestión TI

Cómo ser el CIO que toda empresa desea

Entrevistas

“El gran reto consiste en seguir el compás de la innovación de los grandes modelos del lenguaje”

CASOS DE ÉXITO

Cuatrecasas apuesta por la inteligencia artificial para mejorar el trabajo de sus abogados

17 ABR 2024

La firma, cuenta Francesc Muñoz, su CIO, apuesta constantemente por la innovación y la adopción de nuevas tecnologías para seguir mejorando y aportar mayor valor y eficiencia a los clientes.

La innovación alcanza velocidad de crucero en el vigésimo aniversario de Vueling

16 ABR 2024

Tras el despegue de la estrategia de transformación digital de la aerolínea y la consolidación de la innovación como motor propulsor, Javier Álvarez, CIO de Vueling, descifra cómo abordan el desafío de mejora continua.

A FONDO

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

La división española de Thales Alenia Space, al mando de las comunicaciones en la misión NEO Surveyor de la NASA

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Tecnología e innovación, el Olimpo del turismo

Accede a nuestra publicación de canal

Documentos ComputerWorld

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

12 FEB 2024

Para muchas organizaciones, la red empresarial es el eslabón más débil en su cadena de infraestructura. Por eso, las empresas deberán tener una red moderna, ágil yresiliente. Averigua en este libro electrónico a qué desafíos de red se enfrentan las compañías y cómo abordarlos.

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

15 ENE 2024

La capacidad de adaptarse y evolucionar rápidamente es esencial para el éxito de cualquier empresa y, en este contexto, la elección de una infraestructura tecnológica sólida es vital. SAP S/4HANA Cloud, Public Edition emerge como una opción revolucionaria para impulsar la eficiencia operativa y la innovación empresarial.