Cómo pueden los CIO proteger la información de identificación personal
En un nuevo paradigma tecnológico, Las empresas y los propietarios de datos deben garantizar la privacidad de los datos de los clientes mientras entrenan sus modelos de aprendizaje automático.

Las industrias confían cada vez más en los datos y la inteligencia artificial (IA) para mejorar los procesos y la toma de decisiones. Sin embargo, se enfrentan al desafío de garantizar la privacidad con la información confidencial de identificación personal (PII, de sus siglas inglesas) en la mayoría de los conjuntos de datos empresariales. Aunque este no es un problema nuevo, los equipos de TI consultan datos que contienen PII, pero solo unos pocos seleccionados requieren acceso.
Pero, la protección de datos confidenciales en la canalización moderna de inteligencia artificial (IA) y machine learning (ML) tiene diferentes requisitos. La clase emergente y en constante crecimiento de usuarios de datos consiste en científicos de datos de ML y aplicaciones que requieren conjuntos más grandes. Los propietarios de datos deben caminar sobre la cuerda floja para garantizar que las partes en su ciclo de vida de IA/ML obtengan el acceso adecuado a los datos que necesitan mientras maximizan la privacidad de esos datos PII.
Ingrese a la nueva clase
Los científicos de datos de ML requieren grandes cantidades de información para entrenar modelos de aprendizaje automático. Luego, los modelos entrenados se convierten en consumidores de grandes cantidades de datos para obtener información para las decisiones comerciales. Ya sea antes o después del entrenamiento del modelo, esta nueva clase de consumidores depende de la disponibilidad de grandes cantidades de datos para brindar valor comercial.
A diferencia de los usuarios convencionales, que solo necesitan acceder a cantidades limitadas de datos, la nueva clase requiere acceso a conjuntos completos para garantizar que sus modelos representen los datos con precisión. E incluso si se usan, es posible que no sean suficientes para evitar que un atacante infiera información confidencial mediante el análisis de patrones encriptados o enmascarados.
La nueva clase a menudo utiliza técnicas avanzadas como el aprendizaje profundo, el procesamiento del lenguaje natural y la visión artificial para analizar y extraer información de los datos. Estos esfuerzos a menudo se ralentizan o bloquean, ya que se enfrentan a datos confidenciales de PII enredados en una gran proporción de los conjuntos que necesitan. Se informa que hasta el 44% de los datos son inaccesibles en una organización. Esta limitación bloquea el camino hacia la tierra prometida de AI en la creación de valor, eficiencias y casos de uso nuevos y revolucionarios.
Los nuevos requisitos han dado lugar a la aparición de técnicas como la privacidad diferencial, el aprendizaje federado, los datos sintéticos y el cifrado homomórfico, cuyo objetivo es proteger la PII y, al mismo tiempo, permitir que los científicos de datos y las aplicaciones de ML accedan y analicen los datos que necesitan. Sin embargo, todavía existe una necesidad en el mercado de soluciones implementadas a lo largo del ciclo de vida de ML (antes y después del entrenamiento del modelo) para proteger la PII mientras se accede a grandes conjuntos de datos, sin cambiar drásticamente la metodología y el hardware que se usa en la actualidad.
Garantizar la privacidad y la seguridad en el ciclo de vida moderno de ML
La nueva generación de consumidores de datos de ML necesita implementar medidas de privacidad en ambas etapas del ciclo de vida: capacitación e implementación.
En la fase de entrenamiento, el objetivo principal es utilizar ejemplos existentes para entrenar un modelo. El modelo entrenado debe hacer predicciones precisas, como clasificar muestras de datos que no vio como parte del conjunto de datos de entrenamiento. Las muestras de datos que se usan para el entrenamiento a menudo tienen información confidencial (como PII) enredada en cada registro de datos. Cuando este es el caso, se necesitan controles y técnicas modernas de preservación de la privacidad para proteger la información confidencial.
En la fase de implementación de ML, el modelo entrenado hace predicciones sobre nuevos datos que el modelo no vio durante el entrenamiento; datos de inferencia. Si bien es fundamental garantizar que cualquier PII utilizada para entrenar el modelo ML esté protegida y que las predicciones del modelo no revelen información confidencial sobre individuos, también es fundamental proteger cualquier información confidencial y PII dentro de las muestras de datos de inferencia. La inferencia de datos cifrados es prohibitivamente lenta para la mayoría de las aplicaciones, incluso con hardware personalizado. Como tal, existe una necesidad crítica de soluciones de privacidad viables de bajo costo para garantizar la confidencialidad de los datos durante todo el ciclo de vida de ML.
Ventajas e inconvenientes del conjunto de herramientas para la privacidad
Se han desarrollado varias soluciones modernas para abordar los desafíos de PII, como el aprendizaje federado, la computación confidencial y los datos sintéticos, que la nueva clase de consumidores de datos está explorando para la privacidad en ML e IA. Sin embargo, cada solución tiene diferentes niveles de eficacia y complejidades de implementación para satisfacer los requisitos del usuario.
Aprendizaje federado
El aprendizaje federado es una técnica de aprendizaje automático que permite el entrenamiento en un conjunto de datos descentralizado distribuido en varios dispositivos. En lugar de enviar datos a un servidor central para su procesamiento, el entrenamiento ocurre localmente en cada dispositivo y solo las actualizaciones del modelo se transmiten a un servidor central.
Limitación: la investigación realizada en 2020 por el Instituto de Ingenieros Eléctricos y Electrónicos muestra que un atacante podría inferir información privada de los parámetros del modelo en el aprendizaje federado. Además, el aprendizaje federado no aborda la etapa de inferencia, que aún expone los datos al modelo de ML durante la implementación de dispositivos en la nube o perimetrales.
Privacidad diferencial
La privacidad diferencial proporciona márgenes sobre cuánto contribuye un solo registro de datos de un conjunto de datos de entrenamiento a un modelo de aprendizaje automático. Una prueba de membresía en los registros de datos de entrenamiento asegura que si se elimina un solo registro de datos del conjunto de datos, la salida no debería cambiar más allá de un cierto umbral.
Limitación: si bien el entrenamiento con privacidad diferencial tiene beneficios, aún requiere el acceso del científico de datos a grandes volúmenes de datos de texto sin formato. Además, no aborda la etapa de inferencia de ML en ninguna capacidad.
Cifrado homomórfico
El cifrado homomórfico es un tipo de cifrado que permite realizar cálculos en los datos mientras permanecen cifrados. Para los usuarios modernos, esto significa que los algoritmos de aprendizaje automático pueden operar con datos cifrados sin necesidad de descifrarlos primero. Esto puede proporcionar una mayor privacidad y seguridad para los datos confidenciales, ya que nunca es necesario revelar los datos en forma de texto sin formato.
Limitación: el cifrado homomórfico tiene un costo prohibitivo porque opera con datos cifrados en lugar de datos de texto sin formato, que es computacionalmente intensivo. El cifrado homomórfico a menudo requiere hardware personalizado para optimizar el rendimiento, lo que puede ser costoso de desarrollar y mantener. Finalmente, los científicos de datos usan redes neuronales profundas en muchos dominios, a menudo difíciles o imposibles de implementar de una manera encriptada homomórficamente.
Datos sintéticos
Los datos sintéticos son datos generados por computadora que imitan los datos del mundo real. A menudo se usa para entrenar modelos de aprendizaje automático y proteger datos confidenciales en atención médica y finanzas. Los datos sintéticos pueden generar grandes cantidades de datos rápidamente y eludir los riesgos de privacidad.
Limitación: si bien los datos sintéticos pueden ayudar a entrenar un modelo predictivo, solo cubren adecuadamente algunos posibles subespacios de datos del mundo real. Esto puede provocar una pérdida de precisión y socavar las capacidades del modelo en la etapa de inferencia. Además, los datos reales deben protegerse en la etapa de inferencia, que los datos sintéticos no pueden abordar.
Informática confidencial
La computación confidencial es un enfoque de seguridad que protege los datos durante su uso. Las principales empresas, incluidas Google, Intel, Meta y Microsoft, se han unido al Confidential Computing Consortium para promover entornos de ejecución confiable (TEE) basados en hardware.
Limitación: la informática confidencial requiere que las empresas incurran en costos adicionales para mover sus servicios basados en ML a plataformas que requieren hardware especializado. La solución también está parcialmente libre de riesgos. Un ataque en mayo de 2021 recopiló y corrompió datos de TEE que se basan en la tecnología Intel SGX.
Elegir las soluciones adecuadas
Elegir las soluciones adecuadas para preservar la privacidad es esencial para resolver sus desafíos de ML e IA. Debe evaluar cuidadosamente cada solución y seleccionar las que complementen, aumenten o sean independientes para cumplir con sus requisitos únicos. Por ejemplo, los datos sintéticos pueden mejorar los datos del mundo real, mejorando el rendimiento de sus modelos de IA. Puede usar datos sintéticos para simular eventos raros que pueden ser difíciles de capturar, como desastres naturales, y aumentar los datos del mundo real cuando son limitados.
Otra solución prometedora es la computación confidencial, que puede transformar los datos antes de ingresar al entorno de ejecución confiable. Esta tecnología es una barrera adicional, minimizando la superficie de ataque en un eje diferente. La solución garantiza que los datos de texto sin formato no se vean comprometidos, incluso si se infringe el TEE. Por lo tanto, elija las soluciones adecuadas para preservar la privacidad que se ajusten a sus necesidades y maximice el rendimiento de su IA sin comprometer la privacidad de los datos.