Inteligencia artificial
IA generativa

Cinco formas de implementar su propio modelo LLM

Crear un nuevo modelo de lenguaje grande (LLM) desde cero puede costarle a una empresa millones, o incluso cientos de millones. Pero hay varias formas de implementar LLM personalizados que son más rápidos, más fáciles y, lo más importante, más baratos.

Ia generativa

Es la nueva tecnología que avanza más rápido en la historia. La IA generativa está transformando el mundo, cambiando la forma en que creamos imágenes y videos, audio, texto y código.

Según una encuesta realizada por Dell en septiembre entre tomadores de decisiones de TI, el 76% considera que la IA generativa tendrá un impacto “significativo, si no transformador”, en sus organizaciones, y la mayoría espera ver resultados en los próximos 12 meses.

Un modelo de lenguaje grande (LLM) es un tipo de IA generativa que se centra en texto y código en lugar de imágenes o audio, aunque algunos han comenzado a integrar diferentes modalidades. Los LLM más populares en la empresa hoy en día son ChatGPT y otros modelos como OpenAI GPT, Claude de Anthropic, Llama 2 de Meta y Falcon, un modelo de código abierto del Instituto de Innovación Tecnológica de Abu Dhabi mejor conocido por su soporte para idiomas distintos del inglés.

Hay varias formas en que las empresas implementan LLM, como brindar a los empleados acceso a aplicaciones públicas, usar ingeniería rápida y API para integrar LLM en el software existente, usar bases de datos vectoriales para mejorar la precisión y relevancia, ajustar los modelos existentes o crear los suyos propios.

 

Implementación de LLM públicos

Dig Security es una empresa israelí de seguridad de datos en la nube y sus ingenieros utilizan ChatGPT para escribir código. "Todos los ingenieros utilizan elementos que les ayudan a escribir código más rápido", dice el director ejecutivo Dan Benjamin. Y ChatGPT es uno de los primeros y más sencillos asistentes de codificación que existen. Pero hay un problema: nunca puedes estar seguro de si la información que subes no se utilizará para entrenar la próxima generación del modelo. Dig Security aborda esta posibilidad de dos maneras. Primero, la empresa utiliza una puerta de enlace segura para comprobar qué información se está cargando.

"Nuestros empleados saben que no pueden cargar nada sensible", dice Benjamin. "Está bloqueado".

En segundo lugar, la empresa dirige a sus ingenieros a una versión de ChatGPT que se ejecuta en una nube privada de Azure. Esto significa que Dig Security obtiene su propia instancia autónoma de ChatGPT. Incluso con este enfoque de seguridad, no es una solución perfecta, dice Benjamin. “No existe una solución perfecta. Cualquier organización que crea que sí lo es, se está engañando a sí misma”.

Por ejemplo, alguien puede usar una VPN o una computadora personal y acceder a la versión pública de ChatGPT. Ahí es donde entra en juego otro nivel de mitigación de riesgos.

"Se trata de capacitar a los empleados", dice, "y de asegurarse de que comprendan lo que deben hacer y que estén bien capacitados en seguridad de datos".

Dig Security no está solo.

Skyhigh Security dice que cerca de un millón de usuarios finales accedieron a ChatGPT a través de infraestructuras corporativas durante la primera mitad de 2023, y el volumen de usuarios aumentó un 1.500% entre enero y junio, dice Tracy Holden, directora de marketing corporativo de la compañía.

Y en un informe de julio de Netskope Threat Labs, el código fuente se publica en ChatGPT más que cualquier otro tipo de datos confidenciales a una tasa de 158 incidentes por cada 10.000 usuarios empresariales por mes.

Más recientemente, las empresas han adquirido opciones más seguras y amigables para las empresas, como Microsoft Copilot, que combina facilidad de uso con controles y protecciones adicionales. Y en el OpenAI DevDay a principios de noviembre, el director ejecutivo Sam Altman dijo que ahora hay 100 millones de usuarios activos que utilizan el chatbot ChatGPT de la compañía, dos millones de desarrolladores que utilizan su API y más del 92% de las empresas Fortune 500 están construyendo sobre la plataforma OpenAI.

 

Bases de datos vectoriales y RAG

Para la mayoría de las empresas que buscan personalizar sus LLM, la recuperación de generación aumentada (RAG) es el camino a seguir. Si alguien habla de incrustaciones o bases de datos vectoriales, esto es a lo que normalmente se refiere. La forma en que funciona es que un usuario hace una pregunta sobre, por ejemplo, una política o producto de una empresa. Esa pregunta no se plantea al LLM de inmediato. En cambio, se procesa primero. ¿Tiene el usuario derecho a acceder a esa información? Si existen derechos de acceso, se recupera toda la información potencialmente relevante, normalmente de una base de datos vectorial. Luego, la pregunta y la información relevante se envían al LLM y se integran en un mensaje optimizado que también podría especificar el formato preferido de la respuesta y el tono de voz que el LLM debe usar.

Una base de datos vectorial es una forma de organizar información en una serie de listas, cada una ordenada por un atributo diferente. Por ejemplo, es posible que tenga una lista alfabética y cuanto más cerca estén sus respuestas en orden alfabético, más relevantes serán.

Una lista alfabética es una base de datos vectorial unidimensional, pero las bases de datos vectoriales pueden tener un número ilimitado de dimensiones, lo que le permite buscar respuestas relacionadas en función de su proximidad a cualquier número de factores. Eso los hace perfectos para usar junto con LLM.

"En este momento, estamos convirtiendo todo a una base de datos vectorial", dice Ellie Fields, directora de ingeniería y productos de Salesloft, un proveedor de plataforma de participación de ventas. "Y sí, están funcionando".

Y es más eficaz que utilizar documentos simples para proporcionar contexto para las consultas de LLM, afirma.

La empresa utiliza principalmente ChromaDB, una tienda de vectores de código abierto, cuyo uso principal es para LLM. Otra base de datos de vectores que utiliza Salesloft es Pgvector, una extensión de búsqueda de similitudes de vectores para la base de datos PostgreSQL.

"Pero también hemos realizado algunas investigaciones utilizando FAISS y Pinecone", afirma. FAISS, o Facebook AI Similarity Search, es una biblioteca de código abierto proporcionada por Meta que admite búsquedas de similitudes en documentos multimedia.

Y Pinecone es una base de datos vectorial patentada basada en la nube que también se ha vuelto popular entre los desarrolladores, y su nivel gratuito admite hasta 100.000 vectores. Una vez que la información relevante se recupera de la base de datos vectorial y se integra en un mensaje, la consulta se envía a OpenAI que se ejecuta en una instancia privada en Microsoft Azure.

"Tuvimos la certificación de Azure como nuevo subprocesador en nuestra plataforma", dice Fields. "Siempre informamos a los clientes cuando tenemos un nuevo procesador para su información".

Pero Salesloft también trabaja con Google e IBM, y está trabajando en una funcionalidad de inteligencia artificial generativa que también utiliza esas plataformas.

"Definitivamente trabajaremos con diferentes proveedores y diferentes modelos", afirma. “Las cosas están cambiando semana tras semana. Si no miras diferentes modelos, te estás perdiendo el camino”. Por lo tanto, RAG permite a las empresas separar sus datos propietarios del modelo en sí, lo que hace que sea mucho más fácil intercambiar modelos dentro y fuera a medida que se lanzan mejores modelos. Además, la base de datos vectorial se puede actualizar, incluso en tiempo real, sin necesidad de realizar más ajustes o reentrenar el modelo.

"Hemos cambiado los modelos de OpenAI a OpenAI en Azure", dice Fields. “Y hemos cambiado entre diferentes modelos de OpenAI. Incluso podemos admitir diferentes modelos para diferentes partes de nuestra base de clientes”.

A veces, diferentes modelos tienen diferentes API, añade. "No es trivial", dice. Pero cambiar un modelo sigue siendo más fácil que volver a capacitarse. "Aún no hemos encontrado un caso de uso que funcione mejor con un ajuste fino que con una base de datos vectorial", añade Fields. "Creo que existen casos de uso, pero hasta ahora no hemos encontrado uno que funcione mejor".

Una de las primeras aplicaciones de LLM que implementó Salesloft fue agregar una función que permite a los clientes generar un correo electrónico de ventas para un cliente potencial. "Los clientes se tomaban mucho tiempo para escribir esos correos electrónicos", dice Fields. "Fue difícil empezar y hay mucho bloqueo del escritor". Ahora los clientes pueden especificar la persona objetivo, su propuesta de valor y el llamado a la acción, y reciben tres borradores de correos electrónicos diferentes que pueden personalizar. Salesloft utiliza GPT 3.5 de OpenAI para escribir el correo electrónico, dice Fields.

 

Modelos de código abierto ejecutados localmente

Ikigai Labs, con sede en Boston, ofrece una plataforma que permite a las empresas crear grandes modelos gráficos personalizados o modelos de inteligencia artificial diseñados para trabajar con datos estructurados. Pero para que la interfaz sea más fácil de usar, Ikigai potencia su interfaz con LLM. Por ejemplo, la empresa utiliza la versión de siete mil millones de parámetros del LLM de código abierto Falcon y lo ejecuta en su propio entorno para algunos de sus clientes.

Para introducir información en el LLM, Ikigai utiliza una base de datos vectorial, que también se ejecuta localmente. Está construido sobre el algoritmo Boundary Forest, dice el cofundador y codirector ejecutivo Devavrat Shah.

“Hace cuatro años en el MIT, algunos de mis estudiantes y yo experimentamos con un montón de bases de datos vectoriales”, dice Shah, quien también es profesor de IA en el MIT. "Sabía que sería útil, pero no tanto".

Mantener localmente tanto el modelo como la base de datos vectorial significa que no se pueden filtrar datos a terceros, afirma. "Para los clientes que están de acuerdo con enviar consultas a otros, utilizamos OpenAI", dice Shah. "Somos agnósticos del LLM".

PwC, que creó su propia herramienta ChatPWC, también es independiente del LLM. "ChatPWC hace que nuestros asociados sean más capaces", dice Bret Greenstein, socio de la empresa y líder de la estrategia de comercialización de IA gen. Por ejemplo, incluye indicaciones prediseñadas para generar descripciones de puestos. "Tiene todos mis formatos, plantillas y terminología", dice. “Contamos con expertos en recursos humanos, datos y rapidez, y diseñamos algo que genera muy buenas ofertas de trabajo. Ahora nadie necesita saber cómo dar las asombrosas indicaciones que generan las descripciones de puestos”.

La herramienta está construida sobre Microsoft Azure, pero la compañía también la creó para Google Cloud Platform y AWS. "Tenemos que servir a nuestros clientes, y ellos existen en todas las nubes", afirma Greenstein. De manera similar, está optimizado para usar diferentes modelos en el back-end, porque así es como lo quieren los clientes. "Tenemos todos los modelos funcionando", añade. "Llama 2, Falcon: lo tenemos todo".

Por supuesto, el mercado está cambiando rápidamente y Greenstein sugiere que las empresas adopten una política de “sin arrepentimientos” en sus implementaciones de IA.

"Hay muchas cosas que la gente puede hacer", dice, "como desarrollar sus datos que sean independientes de los modelos y fortalecer la gobernanza". Luego, cuando el mercado cambie y surja un nuevo modelo, los datos y la estructura de gobernanza seguirán siendo relevantes.

 

La sintonía fina

La empresa de consultoría de gestión AArete tomó el modelo de código abierto GPT 2 y lo ajustó con sus propios datos. "Era liviano", dice Priya Iragavarapu, vicepresidenta de servicios de tecnología digital de la empresa. "Queríamos uno de código abierto para poder tomarlo y publicarlo internamente en nuestro entorno".

Si AArete utilizó un modelo alojado y se conectó a él mediante API, surgen problemas de confianza. "Nos preocupa dónde podrían terminar los datos de las indicaciones", dice. "No queremos correr esos riesgos".

Al elegir un modelo de código abierto, observa cuántas veces se descargó anteriormente, el soporte de la comunidad y sus requisitos de hardware.

"El modelo fundamental también debería tener cierta relevancia para las tareas", afirma. “Existen algunos modelos para tareas específicas. Por ejemplo, recientemente observé un modelo de Hugging Face que analiza el contenido de archivos PDF en un formato estructurado”.

Muchas empresas del mundo financiero y de la industria de la atención sanitaria están perfeccionando sus LLM basándose en sus propios conjuntos de datos adicionales.

"Los LLM básicos se forman en Internet", dice. Con un ajuste fino, una empresa puede crear un modelo dirigido específicamente a su caso de uso empresarial.

Una forma común de hacerlo es crear una lista de preguntas y respuestas y ajustar un modelo sobre ellas. De hecho, OpenAI comenzó a permitir ajustes finos de su modelo GPT 3.5 en agosto, utilizando un enfoque de preguntas y respuestas, y presentó un conjunto de nuevas opciones de ajuste fino, personalización y RAG para GPT 4 en su DevDay de noviembre.

Esto es particularmente útil para aplicaciones de servicio al cliente y mesa de ayuda, donde es posible que una empresa ya tenga un banco de datos de preguntas frecuentes.

También en la encuesta de Dell, el 21% de las empresas prefieren volver a entrenar los modelos existentes, utilizando sus propios datos en su propio entorno.

"La opción más popular parece ser Llama 2", dice Andy Thurai, vicepresidente y analista principal de Constellation Research Inc. Llama 2 viene en tres tamaños diferentes y es gratuito para empresas con menos de 700 millones de usuarios mensuales. Las empresas pueden ajustarlo en sus propios conjuntos de datos y tener un modelo nuevo y personalizado con bastante rapidez, afirma. De hecho, la clasificación de Hugging Face LLM está actualmente dominada por diferentes ajustes y personalizaciones de Llama 2. Antes de Llama 2, Falcon era el LLM de código abierto más popular, añade. "Es una carrera armamentista en este momento". El ajuste fino puede crear un modelo que sea más preciso para casos de uso empresarial específicos, afirma. "Si utilizas un modelo Llama generalizado, la precisión puede ser baja".

Y el ajuste fino tiene algunas ventajas respecto a la incrustación RAG. Con la integración, una empresa tiene que realizar una búsqueda en una base de datos vectorial para cada consulta. "Y tenemos la implementación de la base de datos", dice Thurai. "Eso tampoco va a ser fácil".

Tampoco hay límites de ventana de contexto para el ajuste fino. Con la incrustación, hay una cantidad limitada de información que se puede agregar a un mensaje. Si una empresa hace ajustes, no lo haría con frecuencia, justo cuando se lanza una versión significativamente mejorada del modelo base de IA.

Por último, si una empresa tiene un conjunto de datos que cambia rápidamente, se puede utilizar el ajuste fino en combinación con la incorporación. "Puedes ajustarlo primero y luego hacer RAG para las actualizaciones incrementales", afirma.

Rowan Curran, analista de Forrester Research, espera ver surgir muchos modelos perfeccionados y específicos de dominio durante el próximo año, y las empresas también pueden destilar modelos para hacerlos más eficientes en tareas particulares. Pero sólo una pequeña minoría de empresas (10% o menos) hará esto, afirma.

Las empresas de software que crean aplicaciones como aplicaciones SaaS podrían necesitar ajustes, dice Greenstein de PricewaterhouseCoopers. "Si tiene un patrón altamente repetible, el ajuste fino puede reducir sus costos", afirma, pero para implementaciones empresariales, RAG es más eficiente en 90 a 95% de los casos.

"En realidad, estamos buscando modelos de ajuste para verticales específicas", agrega Sebastien Paquet, vicepresidente de ML en Coveo, una empresa canadiense de búsqueda y recomendación de empresas. “Tenemos algunas verticales especializadas con vocabulario especializado, como la vertical médica. Las empresas que venden repuestos para camiones tienen su propia manera de nombrar los repuestos”.

Por ahora, sin embargo, la compañía está utilizando GPT 3.5 y GPT 4 de OpenAI ejecutándose en una nube privada de Azure, con las llamadas a la API LLM aisladas para que Coveo pueda cambiar a diferentes modelos si es necesario. También utiliza algunos LLM de código abierto de Hugging Face para casos de uso específicos.

 

Construya un LLM desde cero

Pocas empresas van a crear su propio LLM desde cero. Después de todo, son, por definición, bastante grandes. GPT 3 de OpenAI tiene 175 mil millones de parámetros y fue entrenado con un conjunto de datos de 45 terabytes y su entrenamiento costó 4,6 millones de dólares. Y según el director ejecutivo de OpenAI, Sam Altman, GPT 4 costó más de 100 millones de dólares.

Ese tamaño es lo que le da a los LLM su magia y capacidad para procesar el lenguaje humano, con cierto grado de sentido común, así como la capacidad de seguir instrucciones.

"No puedes entrenarlo simplemente con tus propios datos", dice Carm Taglienti, distinguido ingeniero de Insight. "Hay valor que proviene del entrenamiento en decenas de millones de parámetros".

Hoy en día, casi todos los LLM provienen de grandes hiperescalares o startups centradas en IA como OpenAI y Anthropic.

Incluso las empresas con amplia experiencia en la creación de sus propios modelos se abstienen de crear sus propios LLM.

Salesloft, por ejemplo, ha estado construyendo sus propios modelos de inteligencia artificial y aprendizaje automático durante años, incluidos modelos de inteligencia artificial generativa que utilizan tecnologías anteriores, pero duda en construir un modelo básico nuevo y de vanguardia desde cero.

"Es un paso computacional enorme que, al menos en esta etapa, no veo que emprendamos", dice Fields.



TE PUEDE INTERESAR...

CASOS DE ÉXITO

Accede a nuestra publicación de canal

DealerWorld Digital

Documentos ComputerWorld

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS