MareNostrum se prepara para generar un modelo del lenguaje en español

Se trata de una iniciativa vital para integrar el conocimiento lingüístico y del mundo a la inteligencia artificial.

También te puede interesar:

Redacción
25 JUN 2020

El supercomputador MareNostrum tiene un nuevo cometido: generar un modelo del lenguaje del español y de otras lenguas del estado. Para ello, ya ha empezado a recibir la ingente cantidad de datos provenientes del Archivo Web de la Biblioteca Nacional de España, cuya colección está formada por los sitios web con dominio .es (incluidos blogs, foros, documentos, imágenes, vídeos, etc.) más todos aquellos considerados patrimonio documental incluidos en otros dominios que se recolectan con el fin de preservar el patrimonio documental español en Internet y asegurar el acceso al mismo.

El Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC) tiene por delante una doble labor con este encargo de la Secretaría de Estado para el Avance Digital (SEAD), en el marco del Plan de Impulso de las Tecnologías del Lenguaje. Por un lado, transportar los datos al supercomputador, así como su procesado para generar el modelo del lenguaje.

En este sentido, MareNostrum ha iniciado hace unos meses el almacenaje de los contenidos tras el desarrollo de un proceso de extracción de los datos textuales del archivo web de la biblioteca, lo que ha permitido transferir los contenidos rápidamente al BSC. No en vano, el transporte de esta ingente cantidad de datos suponía uno de los principales retos de la iniciativa. Más si tenemos en cuenta que, en la actualidad, el supercomputador almacena 45 terabytes.

El siguiente paso consistirá en el procesamiento de estos datos para generar modelos del lenguaje a través de las tecnologías del procesamiento del lenguaje natural. Este recurso ya existe para el inglés —el más conocido es Google Bert—, lo que ha supuesto un antes y un después en el procesamiento del lenguaje natural. El modelo en el que trabaja el BSC destaca de otras iniciativas de modelos del español por la cantidad, calidad y variedad de los datos, lo que hace que sea más preciso y de uso más transversal.

Los modelos del lenguaje y la inteligencia artificial

Los modelos del lenguaje reproducen el uso de la lengua y permiten conocer el significado real de las palabras, incluso de las frases enteras, ya que los datos están contextualizados y tienen más información, más sentido. Esto permite desambiguar el sentido de las palabras, y también interpretar el sesgo ideológico, además de abrir la puerta a abordar la ironía, el sentido figurado y enriquecer los sistemas de inteligencia artificial con sentido común.

Quim Moré, investigador del departamento de CASE del BSC, asegura que “la generación de modelos de lenguaje es vital para la inteligencia artificial. La aplicación computacional de un modelo del lenguaje desambiguado y con un contexto fundamentado en nuestro conocimiento del mundo supone un gran avance en la generación de sistemas cada vez más inteligentes y, a la vez, más cercanos”.

Las aplicaciones de este modelo son múltiples: desde la traducción automática, a la ciberseguridad, hasta la descripción del contenido de un cuadro del siglo XV hecha por un robot. Ahora bien, modelos capaces de generar esta revolución requieren de unos recursos computacionales y de datos que sólo unas pocos centros y compañías, como Google o Facebook, tienen. Por eso Moré destaca que “tenemos la gran suerte de tener en el MareNostrum la capacidad computacional necesaria y, por otro lado, tenemos la ingente cantidad de datos lingüísticos revisados y de calidad aportados por la Biblioteca Nacional. Tenemos una oportunidad importantísima de estar al nivel de los grandes centros de inteligencia artificial y de aportar una aplicación computacional del conocimiento lingüístico a la cultura”.

Imprimir Subir

TE PUEDE INTERESAR...

Tendencias

Las lecciones de aprendidas de Linkedin al implementar LLM para millones de usuarios

Unicaja Banco confía su transformación digital a Kyndryl.

Banca y seguros

Unicaja optimiza su plataforma tecnológica con vistas a eficientar su ‘mainframe’

Tendencias

Justicia algorítmica y diversidad de talento, garantías para una IA humanista

Tendencias

La innovación de las startups impulsa la mejora de la experiencia de cliente

Transporte & Logística

Grupo La Poste mejora la gobernanza de su sistema de información

Tendencias

La Historia Hispánica, ahora también en clave digital

Tendencias

De los "egosistemas" a los ecosistemas: el poder transformador de los gemelos digitales

Tendencias

La fiebre del oro de la IA generativa impulsa el gasto en TI, pero su rentabilidad está en entredicho

Administraciones Públicas

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

Administraciones Públicas

Geografía y copilotos, aliados para los CIO de la Administración

inteligencia artificial y ciberseguridad

Tendencias

Los copilotos de IA generativa no convencen a los CIO

Administraciones Públicas

Radiografía de la Administración pública local y regional en clave tecnológica

Administraciones Públicas

El Viejo Continente se abre camino hacia la Década Digital 2030

Administraciones Públicas

De la Administración electrónica a la burocracia invisible

Tendencias

El grupo de centros deportivos GO fit optimiza su gestión financiera con IA y 'deep learning'

Liderazgo & Gestión TI

¿Qué es un proveedor de servicios gestionados? La externalización estratégica de servicios informáticos

CASOS DE ÉXITO

Cuatrecasas apuesta por la inteligencia artificial para mejorar el trabajo de sus abogados

17 ABR 2024

La firma, cuenta Francesc Muñoz, su CIO, apuesta constantemente por la innovación y la adopción de nuevas tecnologías para seguir mejorando y aportar mayor valor y eficiencia a los clientes.

La innovación alcanza velocidad de crucero en el vigésimo aniversario de Vueling

16 ABR 2024

Tras el despegue de la estrategia de transformación digital de la aerolínea y la consolidación de la innovación como motor propulsor, Javier Álvarez, CIO de Vueling, descifra cómo abordan el desafío de mejora continua.

A FONDO

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

La división española de Thales Alenia Space, al mando de las comunicaciones en la misión NEO Surveyor de la NASA

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Tecnología e innovación, el Olimpo del turismo

Accede a nuestra publicación de canal

Documentos ComputerWorld

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

12 FEB 2024

Para muchas organizaciones, la red empresarial es el eslabón más débil en su cadena de infraestructura. Por eso, las empresas deberán tener una red moderna, ágil yresiliente. Averigua en este libro electrónico a qué desafíos de red se enfrentan las compañías y cómo abordarlos.

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

15 ENE 2024

La capacidad de adaptarse y evolucionar rápidamente es esencial para el éxito de cualquier empresa y, en este contexto, la elección de una infraestructura tecnológica sólida es vital. SAP S/4HANA Cloud, Public Edition emerge como una opción revolucionaria para impulsar la eficiencia operativa y la innovación empresarial.