Analítica de datos
IA generativa

Cómo debe evolucionar la gobernanza de datos para afrontar el reto de la IA generativa

La IA generativa trae consigo nuevos riesgos, retos y oportunidades en la manera con la que las organizaciones obtienen y utilizan los datos. He aquí cuatro formas para los equipos de gobierno de datos estén a la altura de las circunstancias.

flecha, camino
Nik (Unsplash).

Con la gobernanza de datos en mente, decidí consultar ChatGPT introduciendo la pregunta: "¿Qué es el gobierno de datos?" La IA respondió con: "La gobernanza de datos es un conjunto de procesos, políticas, normas y directrices que garantizan que los datos se gestionan, protegen y utilizan adecuadamente dentro de una organización". Es un buen comienzo, y hay mucho más que decir sobre la gobernanza de datos y su significado en estos momentos.

 

La gobernanza de datos en la era de la IA generativa

La gobernanza de datos abarca una serie de disciplinas, como la seguridad, la gestión, la calidad y la catalogación de los datos. Esta práctica requiere definir políticas de uso, crear fuentes de datos maestros, perfilar conjuntos de datos, documentar diccionarios y supervisar los ciclos de vida de los datos. Un modelo organizativo suele definir funciones para el director de datos que facilita una estrategia, los propietarios de datos que establecen políticas sobre conjuntos de datos y los administradores de datos responsables de mejorar la calidad de los datos.

"La gobernanza de datos es un elemento crítico de la integridad de los datos, que permite a las organizaciones encontrar, comprender y aprovechar fácilmente los datos críticos, lo que conduce a informes precisos y decisiones informadas", dice Tendü Yogurtçu, director de tecnología de Precisely. "Proporciona una comprensión del significado, el linaje y el impacto de los datos, por lo que las empresas pueden mantener el cumplimiento y garantizar que los modelos de IA se alimenten con datos fiables para obtener resultados fiables".

Yogurtçu dice que la gobernanza de datos fue una vez una empresa técnica centrada en el cumplimiento. "Con el aumento de la adopción de IA, los datos se han convertido en el activo corporativo más vital, y la gobernanza de datos debe ser una prioridad en toda la empresa", añade.

Para muchas organizaciones que experimentan con la IA generativa o construyen aplicaciones con grandes modelos lingüísticos (LLM), existen mayores responsabilidades de gobierno de datos, más riesgos por la forma en que los empleados utilizan las herramientas de IA y un nuevo alcance de los datos no estructurados. He consultado a varios expertos sobre cómo debe evolucionar la gobernanza de datos para hacer frente a las oportunidades y riesgos inherentes a las herramientas y capacidades de la IA generativa.

 

Cuatro maneras de hacer evolucionar la gobernanza de datos para la IA generativa

1.- Revisar las políticas de datos para su uso en herramientas y LLM de IA generativa

Los departamentos de gobierno de datos supervisan los catálogos de datos y comunican las políticas de uso de datos para ayudar a los empleados a aprovechar los conjuntos de datos centralizados y utilizarlos para crear modelos de aprendizaje automático, cuadros de mando y otras herramientas de análisis. Estos departamentos están actualizando las políticas para incluir si se pueden utilizar fuentes de datos empresariales en LLM y herramientas de IA generativa abiertas, y cómo hacerlo. Los desarrolladores y científicos de datos deben revisar estas políticas y consultar con los propietarios de los datos cualquier duda sobre el uso de conjuntos de datos para apoyar la experimentación de la IA generativa.

"Con la IA generativa, que trae consigo más complejidad de datos, las organizaciones deben tener una buena gobernanza de datos y políticas de privacidad para gestionar y asegurar el contenido utilizado para entrenar estos modelos", dice Kris Lahiri, cofundador y director de seguridad de Egnyte. "Las organizaciones deben prestar especial atención a qué datos se utilizan con estas herramientas de IA, ya sean de terceros como OpenAI, PaLM o un LLM interno que la empresa pueda utilizar internamente."

Revise las políticas de genAI en torno a la privacidad, la protección de datos y el uso aceptable. Muchas organizaciones requieren la presentación de solicitudes y aprobaciones de los propietarios de los datos antes de utilizar conjuntos de datos para casos de uso de IA generativa. Consulte con las funciones de riesgo, cumplimiento y legales antes de usar conjuntos de datos que deben cumplir con GDPR, CCPA, PCI, HIPAA u otras normas de cumplimiento de datos.

Las políticas de datos también deben considerar la cadena de suministro de datos y las responsabilidades cuando se trabaja con fuentes de datos de terceros. "Si se produjera un incidente de seguridad relacionado con datos que están protegidos dentro de una determinada región, los proveedores deben tener claras tanto sus responsabilidades como las de sus clientes para mitigarlo adecuadamente, especialmente si estos datos están destinados a ser utilizados en plataformas de IA/ML", afirma Jozef de Vries, director de ingeniería de productos de EDB.

Para los que están entusiasmados con las oportunidades de la IA generativa, es importante tener una mentalidad de "lo primero es lo primero" mediante la comprensión de las políticas de privacidad, seguridad y cumplimiento de datos de su organización.

 

2.- Acelerar las iniciativas de calidad de datos

Muchas empresas ofrecen soluciones de calidad de datos, como Attacama, Collibra, Experian, IBM, Informatica, Precisely, SAP, SAS y Talend. El tamaño del mercado mundial de herramientas de calidad de datos se valoró en más de 4.000 millones de dólares en 2022 y se espera que crezca un 17,7% anual. Habrá un mayor crecimiento ahora que muchas empresas están experimentando con herramientas de IA y LLM.

"Dado que la inteligencia artificial solo es tan buena como los datos que la alimentan, los numerosos retos de trabajar con IA están relacionados con la calidad de los datos", afirma Mateusz Krempa, COO de Piwik Pro. "La mala calidad de los datos puede llevar a percepciones engañosas o erróneas, afectando seriamente a los resultados".

Krempa afirma que los retos de la calidad de los datos se derivan del volumen, la velocidad y la variedad de los big data, especialmente porque los LLM ahora aprovechan las fuentes de datos no estructurados de la organización. Las empresas que deseen desarrollar LLM internos tendrán que ampliar las iniciativas de calidad de datos para incluir la información extraída de documentos, herramientas de colaboración, repositorios de código y otras herramientas que almacenan el conocimiento y la propiedad intelectual de la empresa.

"La gobernanza de datos está cambiando de marcha no solo para alimentar los sistemas LLM con toneladas de datos, sino para hacerlo de forma inteligente y segura", afirma Karen Meppen, líder de gobernanza de datos en Hakkoda. "La atención se centra en garantizar que los datos no sean solo grandes, sino inteligentes: precisos, comprensibles, conscientes de la privacidad, seguros y respetuosos con los riesgos e impactos de la propiedad intelectual y la imparcialidad".

La calidad de los datos puede mejorarse con distintas herramientas, en función de los objetivos empresariales y los tipos de datos.

- Las herramientas tradicionales de calidad de datos pueden desduplicar, normalizar campos de datos, validar datos en función de reglas empresariales, detectar anomalías y calcular métricas de calidad.

- Las herramientas de gestión de datos maestros (MDM) ayudan a las organizaciones a conectar múltiples fuentes de datos y crear una fuente de verdad en torno a entidades empresariales como clientes y productos.

- Las plataformas de datos de clientes (CDP) son herramientas especializadas para centralizar la información de los clientes y permitir el marketing, las ventas, el servicio de atención al cliente y otras interacciones con los clientes.

Es de esperar que las actualizaciones y las nuevas herramientas de calidad de datos mejoren la compatibilidad con las fuentes de datos no estructurados y aumenten las capacidades de calidad de datos para los casos de uso de genAI.

Otra recomendación de Graeme Cantu-Park, CISO de Matillion, se centra en la importancia del linaje de datos. "La IA requerirá una forma completamente diferente de ver las prioridades y prácticas de gobernanza para tener una mejor visibilidad de los pipelines de datos y el linaje de datos que alimenta las aplicaciones y modelos de IA".

El linaje de datos ayuda a exponer el ciclo de vida de los datos y responder preguntas sobre quién, cuándo, dónde, por qué y cómo cambian los datos. Debido a que la IA amplía el alcance de los datos y sus casos de uso, comprender el linaje de datos se vuelve más importante para más personas en la organización, incluidas las personas en seguridad y otras funciones de gestión de riesgos.

 

3.- Revisar la gestión de datos y las arquitecturas de canalización

Más allá de las políticas y la calidad de los datos, los responsables de la gobernanza de datos deben ampliar su influencia a las funciones de gestión y arquitectura de datos. La gobernanza de datos proactiva permite un conjunto de capacidades para que más empleados puedan aprovechar los datos, la analítica (y ahora la IA) para hacer su trabajo y tomar decisiones más inteligentes. La forma en que se almacenan, acceden, producen, catalogan y documentan los datos son factores que influyen en la rapidez, facilidad y seguridad con que las organizaciones podrán extender sus datos a los casos de uso de la IA generativa.

Hillary Ashton, directora de producto de Teradata, sugiere las siguientes formas de hacer realidad los casos de uso de IA más interesantes:

- Crear productos de datos reutilizables, o conjuntos curados de datos buenos conocidos, para ayudar a la organización a controlar mejor sus datos e infundir confianza en ellos.

- Respetar la gravedad de los datos para que la información sea accesible a más personas dentro de la plantilla sin mover los datos entre distintos entornos.

- Poner a prueba iniciativas de IA teniendo en cuenta la escalabilidad, incluidas las canalizaciones de datos de IA/ML con una gobernanza sólida que también permita un ecosistema abierto y conectado.

Una clave para los equipos de datos es identificar marcos y plataformas que sean fáciles de usar y que admitan múltiples casos de uso. Sean Mahoney, director general y vicepresidente de Ensono dice: "Los marcos de gobierno están empezando a ser más ágiles para permitir a los equipos responder más rápidamente al ritmo de los avances tecnológicos". Sugiere que los responsables de la gobernanza de datos también revisen estas herramientas y se impliquen en ellas:

- Mallas de datos para delegar la gestión de los datos en quienes los crean.

- Bases de datos vectoriales para gestionar la escalabilidad y la complejidad inherentes a la IA generativa y los LLM.

- Herramientas de supervisión en tiempo real para ampliar la gobernanza de datos a más sistemas.

Otra consideración a tener en cuenta es cómo la gobernanza, la gestión y la arquitectura de los datos exigen comprender la normativa mundial sobre almacenamiento de datos. De Vries de EDB recomienda: "Las empresas deben implementar bases de datos distribuidas globalmente para elevar sus prácticas de gobierno de datos manteniendo los datos altamente regulados dentro de su región mientras distribuyen datos menos restrictivos globalmente para mayor agilidad al alimentar las plataformas de IA".

 

4.- Extender la gobernanza de datos a los flujos de trabajo de la IA generativa

Las funciones de gobierno de datos también deben considerar cómo el uso de herramientas de IA generativa y LLM requiere políticas y mejores prácticas. Por ejemplo, al principio de este artículo, cité explícitamente ChatGPT para que los lectores supieran que la respuesta procedía de una fuente de IA generativa. Una buena gobernanza de los datos exige educar a los empleados sobre los procedimientos para aumentar la transparencia, las herramientas que están autorizados a utilizar y las prácticas que minimizan los problemas de privacidad de los datos. 

"Lo más importante que estoy viendo es el aumento de las formas de aprovechar, compartir y aprender de los datos con precisión, manteniendo al mismo tiempo la privacidad y la autenticidad", dice Deon Nicholas, CEO de Forethought. "Por ejemplo, los motores de búsqueda basados en LLM como Perplexity siempre citan sus fuentes, o las tecnologías de redacción de datos como Private AI que le permiten fregar y redactar PIl antes de ingerir o enviar datos a LLMS".

Una nueva medida proactiva que los responsables de la gobernanza de datos deberían tener en cuenta es la creación de bibliotecas de avisos en las que los empleados puedan registrar sus casos de uso de avisos y compartirlos en toda la organización. Esta disciplina amplía las prácticas de gestión del conocimiento que muchos equipos de gobierno de datos ya realizan en torno al mantenimiento de catálogos y diccionarios de datos.

Nikolaos Vasiloglou, vicepresidente de Research ML en RelationalAI, afirma: "El combustible de los LLM consiste en una mezcla de contenido limpio y bien conservado almacenado normalmente en un grafo de conocimiento junto con conocimiento experto que suele estar en forma de bibliotecas de avisos. Aunque tenemos buenas prácticas de gobernanza para los grafos de conocimiento, cómo gobernar estos últimos no es obvio".

Me encanta la cita popularizada en la película de Spiderman: "Un gran poder conlleva una gran responsabilidad". Estamos asistiendo a una rápida evolución de las capacidades de la IA generativa y la cuestión es si los equipos de gobernanza de datos darán un paso al frente con su parte de la ecuación.



TE PUEDE INTERESAR...

CASOS DE ÉXITO

Accede a nuestra publicación de canal

DealerWorld Digital

Documentos ComputerWorld

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS