Cómo debe evolucionar la gobernanza de datos para afrontar el reto de la IA generativa

La IA generativa trae consigo nuevos riesgos, retos y oportunidades en la manera con la que las organizaciones obtienen y utilizan los datos. He aquí cuatro formas para los equipos de gobierno de datos estén a la altura de las circunstancias.

Isaac Sacolick
26 FEB 2024

Con la gobernanza de datos en mente, decidí consultar ChatGPT introduciendo la pregunta: "¿Qué es el gobierno de datos?" La IA respondió con: "La gobernanza de datos es un conjunto de procesos, políticas, normas y directrices que garantizan que los datos se gestionan, protegen y utilizan adecuadamente dentro de una organización". Es un buen comienzo, y hay mucho más que decir sobre la gobernanza de datos y su significado en estos momentos.

La gobernanza de datos en la era de la IA generativa

La gobernanza de datos abarca una serie de disciplinas, como la seguridad, la gestión, la calidad y la catalogación de los datos. Esta práctica requiere definir políticas de uso, crear fuentes de datos maestros, perfilar conjuntos de datos, documentar diccionarios y supervisar los ciclos de vida de los datos. Un modelo organizativo suele definir funciones para el director de datos que facilita una estrategia, los propietarios de datos que establecen políticas sobre conjuntos de datos y los administradores de datos responsables de mejorar la calidad de los datos.

"La gobernanza de datos es un elemento crítico de la integridad de los datos, que permite a las organizaciones encontrar, comprender y aprovechar fácilmente los datos críticos, lo que conduce a informes precisos y decisiones informadas", dice Tendü Yogurtçu, director de tecnología de Precisely. "Proporciona una comprensión del significado, el linaje y el impacto de los datos, por lo que las empresas pueden mantener el cumplimiento y garantizar que los modelos de IA se alimenten con datos fiables para obtener resultados fiables".

Yogurtçu dice que la gobernanza de datos fue una vez una empresa técnica centrada en el cumplimiento. "Con el aumento de la adopción de IA, los datos se han convertido en el activo corporativo más vital, y la gobernanza de datos debe ser una prioridad en toda la empresa", añade.

Para muchas organizaciones que experimentan con la IA generativa o construyen aplicaciones con grandes modelos lingüísticos (LLM), existen mayores responsabilidades de gobierno de datos, más riesgos por la forma en que los empleados utilizan las herramientas de IA y un nuevo alcance de los datos no estructurados. He consultado a varios expertos sobre cómo debe evolucionar la gobernanza de datos para hacer frente a las oportunidades y riesgos inherentes a las herramientas y capacidades de la IA generativa.

Cuatro maneras de hacer evolucionar la gobernanza de datos para la IA generativa

1.- Revisar las políticas de datos para su uso en herramientas y LLM de IA generativa

Los departamentos de gobierno de datos supervisan los catálogos de datos y comunican las políticas de uso de datos para ayudar a los empleados a aprovechar los conjuntos de datos centralizados y utilizarlos para crear modelos de aprendizaje automático, cuadros de mando y otras herramientas de análisis. Estos departamentos están actualizando las políticas para incluir si se pueden utilizar fuentes de datos empresariales en LLM y herramientas de IA generativa abiertas, y cómo hacerlo. Los desarrolladores y científicos de datos deben revisar estas políticas y consultar con los propietarios de los datos cualquier duda sobre el uso de conjuntos de datos para apoyar la experimentación de la IA generativa.

"Con la IA generativa, que trae consigo más complejidad de datos, las organizaciones deben tener una buena gobernanza de datos y políticas de privacidad para gestionar y asegurar el contenido utilizado para entrenar estos modelos", dice Kris Lahiri, cofundador y director de seguridad de Egnyte. "Las organizaciones deben prestar especial atención a qué datos se utilizan con estas herramientas de IA, ya sean de terceros como OpenAI, PaLM o un LLM interno que la empresa pueda utilizar internamente."

Revise las políticas de genAI en torno a la privacidad, la protección de datos y el uso aceptable. Muchas organizaciones requieren la presentación de solicitudes y aprobaciones de los propietarios de los datos antes de utilizar conjuntos de datos para casos de uso de IA generativa. Consulte con las funciones de riesgo, cumplimiento y legales antes de usar conjuntos de datos que deben cumplir con GDPR, CCPA, PCI, HIPAA u otras normas de cumplimiento de datos.

Las políticas de datos también deben considerar la cadena de suministro de datos y las responsabilidades cuando se trabaja con fuentes de datos de terceros. "Si se produjera un incidente de seguridad relacionado con datos que están protegidos dentro de una determinada región, los proveedores deben tener claras tanto sus responsabilidades como las de sus clientes para mitigarlo adecuadamente, especialmente si estos datos están destinados a ser utilizados en plataformas de IA/ML", afirma Jozef de Vries, director de ingeniería de productos de EDB.

Para los que están entusiasmados con las oportunidades de la IA generativa, es importante tener una mentalidad de "lo primero es lo primero" mediante la comprensión de las políticas de privacidad, seguridad y cumplimiento de datos de su organización.

2.- Acelerar las iniciativas de calidad de datos

Muchas empresas ofrecen soluciones de calidad de datos, como Attacama, Collibra, Experian, IBM, Informatica, Precisely, SAP, SAS y Talend. El tamaño del mercado mundial de herramientas de calidad de datos se valoró en más de 4.000 millones de dólares en 2022 y se espera que crezca un 17,7% anual. Habrá un mayor crecimiento ahora que muchas empresas están experimentando con herramientas de IA y LLM.

"Dado que la inteligencia artificial solo es tan buena como los datos que la alimentan, los numerosos retos de trabajar con IA están relacionados con la calidad de los datos", afirma Mateusz Krempa, COO de Piwik Pro. "La mala calidad de los datos puede llevar a percepciones engañosas o erróneas, afectando seriamente a los resultados".

Krempa afirma que los retos de la calidad de los datos se derivan del volumen, la velocidad y la variedad de los big data, especialmente porque los LLM ahora aprovechan las fuentes de datos no estructurados de la organización. Las empresas que deseen desarrollar LLM internos tendrán que ampliar las iniciativas de calidad de datos para incluir la información extraída de documentos, herramientas de colaboración, repositorios de código y otras herramientas que almacenan el conocimiento y la propiedad intelectual de la empresa.

"La gobernanza de datos está cambiando de marcha no solo para alimentar los sistemas LLM con toneladas de datos, sino para hacerlo de forma inteligente y segura", afirma Karen Meppen, líder de gobernanza de datos en Hakkoda. "La atención se centra en garantizar que los datos no sean solo grandes, sino inteligentes: precisos, comprensibles, conscientes de la privacidad, seguros y respetuosos con los riesgos e impactos de la propiedad intelectual y la imparcialidad".

La calidad de los datos puede mejorarse con distintas herramientas, en función de los objetivos empresariales y los tipos de datos.

- Las herramientas tradicionales de calidad de datos pueden desduplicar, normalizar campos de datos, validar datos en función de reglas empresariales, detectar anomalías y calcular métricas de calidad.

- Las herramientas de gestión de datos maestros (MDM) ayudan a las organizaciones a conectar múltiples fuentes de datos y crear una fuente de verdad en torno a entidades empresariales como clientes y productos.

- Las plataformas de datos de clientes (CDP) son herramientas especializadas para centralizar la información de los clientes y permitir el marketing, las ventas, el servicio de atención al cliente y otras interacciones con los clientes.

Es de esperar que las actualizaciones y las nuevas herramientas de calidad de datos mejoren la compatibilidad con las fuentes de datos no estructurados y aumenten las capacidades de calidad de datos para los casos de uso de genAI.

Otra recomendación de Graeme Cantu-Park, CISO de Matillion, se centra en la importancia del linaje de datos. "La IA requerirá una forma completamente diferente de ver las prioridades y prácticas de gobernanza para tener una mejor visibilidad de los pipelines de datos y el linaje de datos que alimenta las aplicaciones y modelos de IA".

El linaje de datos ayuda a exponer el ciclo de vida de los datos y responder preguntas sobre quién, cuándo, dónde, por qué y cómo cambian los datos. Debido a que la IA amplía el alcance de los datos y sus casos de uso, comprender el linaje de datos se vuelve más importante para más personas en la organización, incluidas las personas en seguridad y otras funciones de gestión de riesgos.

3.- Revisar la gestión de datos y las arquitecturas de canalización

Más allá de las políticas y la calidad de los datos, los responsables de la gobernanza de datos deben ampliar su influencia a las funciones de gestión y arquitectura de datos. La gobernanza de datos proactiva permite un conjunto de capacidades para que más empleados puedan aprovechar los datos, la analítica (y ahora la IA) para hacer su trabajo y tomar decisiones más inteligentes. La forma en que se almacenan, acceden, producen, catalogan y documentan los datos son factores que influyen en la rapidez, facilidad y seguridad con que las organizaciones podrán extender sus datos a los casos de uso de la IA generativa.

Hillary Ashton, directora de producto de Teradata, sugiere las siguientes formas de hacer realidad los casos de uso de IA más interesantes:

- Crear productos de datos reutilizables, o conjuntos curados de datos buenos conocidos, para ayudar a la organización a controlar mejor sus datos e infundir confianza en ellos.

- Respetar la gravedad de los datos para que la información sea accesible a más personas dentro de la plantilla sin mover los datos entre distintos entornos.

- Poner a prueba iniciativas de IA teniendo en cuenta la escalabilidad, incluidas las canalizaciones de datos de IA/ML con una gobernanza sólida que también permita un ecosistema abierto y conectado.

Una clave para los equipos de datos es identificar marcos y plataformas que sean fáciles de usar y que admitan múltiples casos de uso. Sean Mahoney, director general y vicepresidente de Ensono dice: "Los marcos de gobierno están empezando a ser más ágiles para permitir a los equipos responder más rápidamente al ritmo de los avances tecnológicos". Sugiere que los responsables de la gobernanza de datos también revisen estas herramientas y se impliquen en ellas:

- Mallas de datos para delegar la gestión de los datos en quienes los crean.

- Bases de datos vectoriales para gestionar la escalabilidad y la complejidad inherentes a la IA generativa y los LLM.

- Herramientas de supervisión en tiempo real para ampliar la gobernanza de datos a más sistemas.

Otra consideración a tener en cuenta es cómo la gobernanza, la gestión y la arquitectura de los datos exigen comprender la normativa mundial sobre almacenamiento de datos. De Vries de EDB recomienda: "Las empresas deben implementar bases de datos distribuidas globalmente para elevar sus prácticas de gobierno de datos manteniendo los datos altamente regulados dentro de su región mientras distribuyen datos menos restrictivos globalmente para mayor agilidad al alimentar las plataformas de IA".

4.- Extender la gobernanza de datos a los flujos de trabajo de la IA generativa

Las funciones de gobierno de datos también deben considerar cómo el uso de herramientas de IA generativa y LLM requiere políticas y mejores prácticas. Por ejemplo, al principio de este artículo, cité explícitamente ChatGPT para que los lectores supieran que la respuesta procedía de una fuente de IA generativa. Una buena gobernanza de los datos exige educar a los empleados sobre los procedimientos para aumentar la transparencia, las herramientas que están autorizados a utilizar y las prácticas que minimizan los problemas de privacidad de los datos.

"Lo más importante que estoy viendo es el aumento de las formas de aprovechar, compartir y aprender de los datos con precisión, manteniendo al mismo tiempo la privacidad y la autenticidad", dice Deon Nicholas, CEO de Forethought. "Por ejemplo, los motores de búsqueda basados en LLM como Perplexity siempre citan sus fuentes, o las tecnologías de redacción de datos como Private AI que le permiten fregar y redactar PIl antes de ingerir o enviar datos a LLMS".

Una nueva medida proactiva que los responsables de la gobernanza de datos deberían tener en cuenta es la creación de bibliotecas de avisos en las que los empleados puedan registrar sus casos de uso de avisos y compartirlos en toda la organización. Esta disciplina amplía las prácticas de gestión del conocimiento que muchos equipos de gobierno de datos ya realizan en torno al mantenimiento de catálogos y diccionarios de datos.

Nikolaos Vasiloglou, vicepresidente de Research ML en RelationalAI, afirma: "El combustible de los LLM consiste en una mezcla de contenido limpio y bien conservado almacenado normalmente en un grafo de conocimiento junto con conocimiento experto que suele estar en forma de bibliotecas de avisos. Aunque tenemos buenas prácticas de gobernanza para los grafos de conocimiento, cómo gobernar estos últimos no es obvio".

Me encanta la cita popularizada en la película de Spiderman: "Un gran poder conlleva una gran responsabilidad". Estamos asistiendo a una rápida evolución de las capacidades de la IA generativa y la cuestión es si los equipos de gobernanza de datos darán un paso al frente con su parte de la ecuación.

Imprimir Subir

TE PUEDE INTERESAR...

Tendencias

Siete tendencias de una estrategia empresarial en la nube para 2024

Industria y Utilities

Aciturri avanza hacia la excelencia operativa por el sendero de la digitalización

Liderazgo & Gestión TI

Glintt Global crea un nuevo Centro de Excelencia especializado en IA generativa

Tendencias

Las lecciones de aprendidas de Linkedin al implementar LLM para millones de usuarios

Unicaja Banco confía su transformación digital a Kyndryl.

Banca y seguros

Unicaja optimiza su plataforma tecnológica con vistas a eficientar su ‘mainframe’

Tendencias

Justicia algorítmica y diversidad de talento, garantías para una IA humanista

Tendencias

La innovación de las startups impulsa la mejora de la experiencia de cliente

Transporte & Logística

Grupo La Poste mejora la gobernanza de su sistema de información

Tendencias

La Historia Hispánica, ahora también en clave digital

Tendencias

De los "egosistemas" a los ecosistemas: el poder transformador de los gemelos digitales

Tendencias

La fiebre del oro de la IA generativa impulsa el gasto en TI, pero su rentabilidad está en entredicho

Administraciones Públicas

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

Administraciones Públicas

Geografía y copilotos, aliados para los CIO de la Administración

inteligencia artificial y ciberseguridad

Tendencias

Los copilotos de IA generativa no convencen a los CIO

Administraciones Públicas

Radiografía de la Administración pública local y regional en clave tecnológica

Administraciones Públicas

El Viejo Continente se abre camino hacia la Década Digital 2030

CASOS DE ÉXITO

Cuatrecasas apuesta por la inteligencia artificial para mejorar el trabajo de sus abogados

17 ABR 2024

La firma, cuenta Francesc Muñoz, su CIO, apuesta constantemente por la innovación y la adopción de nuevas tecnologías para seguir mejorando y aportar mayor valor y eficiencia a los clientes.

La innovación alcanza velocidad de crucero en el vigésimo aniversario de Vueling

16 ABR 2024

Tras el despegue de la estrategia de transformación digital de la aerolínea y la consolidación de la innovación como motor propulsor, Javier Álvarez, CIO de Vueling, descifra cómo abordan el desafío de mejora continua.

A FONDO

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

La división española de Thales Alenia Space, al mando de las comunicaciones en la misión NEO Surveyor de la NASA

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Tecnología e innovación, el Olimpo del turismo

Accede a nuestra publicación de canal

Documentos ComputerWorld

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

12 FEB 2024

Para muchas organizaciones, la red empresarial es el eslabón más débil en su cadena de infraestructura. Por eso, las empresas deberán tener una red moderna, ágil yresiliente. Averigua en este libro electrónico a qué desafíos de red se enfrentan las compañías y cómo abordarlos.

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

15 ENE 2024

La capacidad de adaptarse y evolucionar rápidamente es esencial para el éxito de cualquier empresa y, en este contexto, la elección de una infraestructura tecnológica sólida es vital. SAP S/4HANA Cloud, Public Edition emerge como una opción revolucionaria para impulsar la eficiencia operativa y la innovación empresarial.