En marcha un sistema de traducción automática neuronal para las lenguas románicas ibéricas

La UOC capitanea el proyecto que explora las técnicas más efectivas para entrenar sistemas de traducción automática basados en redes neuronales aplicadas a siete lenguas románicas de la península ibérica.

Transferencia de conocimiento entre lenguas

Los sistemas de traducción basados en redes neuronales se entrenan a partir de millones de oraciones en una lengua con su traducción en otra lengua. Es lo que se conoce como corpus paralelos, inmensos conjuntos de datos disponibles en dos lenguas. Una vez que la red neuronal está entrenada, es capaz de traducir con eficacia cualquier texto en esas lenguas. El problema es que, con idiomas como el español o el portugués, es sencillo encontrar esos corpus paralelos, pero con aquellas lenguas que tienen menos material disponible —como el aranés, el aragonés o el asturiano—la tarea se complica.

"Lo bueno es que los sistemas neuronales pueden aprender cosas de una lengua a partir de otra que se le parezca", explica Antoni Oliver, investigador del grupo de investigación interuniversitario en Aplicaciones Lingüísticas (GRIAL-UOC) y coordinador del proyecto TAN-IBE. "Por eso escogimos las lenguas románicas. El proceso deberá ser capaz de aprender por transferencia utilizando un modelo entre dos lenguas para construir el sistema de traducción entre otras dos. Así, por ejemplo, cuando esté terminada, la herramienta de traducción español-aranés habrá aprendido en parte gracias al sistema español-catalán o al español-portugués", añade.

Objetivos en el horizonte

La construcción del modelo de traducción no es el único objetivo del proyecto de investigación, que busca, además: compilar corpus paralelos y monolingües para las siete lenguas románicas, con especial hincapié en el asturiano, el aragonés y el aranés; explorar nuevas técnicas para el entrenamiento de sistemas de traducción automática neuronal (traducción automática multilingüe, la traducción automática autosupervisada y la traducción automática no supervisada); o entrenar sistemas de traducción automática neuronal entre el español y el resto de las lenguas del proyecto, en ambas direcciones. Por otro lado también aspira a entrenar sistemas multilingües capaces de traducir desde y hacia todas las lenguas del proyecto, así como crear guías que faciliten el entrenamiento de sistemas de traducción automática neuronal en general y publicar los resultados del proyecto con licencias libres.

"A grandes rasgos, el proyecto consiste, en primer lugar, en recopilar todos los corpus para las lenguas con menos material (asturiano, aragonés y aranés), y, en segundo lugar, en entrenar los sistemas de traducción", añade Oliver. "El resultado final del proyecto será tanto la publicación libre de los recursos, en la medida que sea posible, como la creación de un sistema de traducción automática neuronal libre de uso", continúa.

Impulso a las lenguas minoritarias

La primera parte del proyecto está llevándose a cabo fuera de los laboratorios. Para disponer de los datos necesarios para entrenar los modelos de inteligencia artificial, es necesario recopilar el máximo material posible del asturiano, el aragonés y el aranés. "Por eso, esta primera fase se centra en lograr acuerdos con gobiernos autonómicos, universidades o editoriales para que nos faciliten el material para crear los corpus paralelos con los que entrenar al sistema neuronal", insiste.

En este sentido, en el marco del proyecto se ha alcanzado un acuerdo con el Gobierno del Principado de Asturias para la cesión de todo el corpus de textos traducidos del castellano al asturiano que posee la Dirección Xeneral de Política Llingüística. El convenio recoge también que, si el Principado lo requiere, podrá disponer de los desarrollos tecnológicos y lingüísticos del proyecto TAN-IBE para su aprovechamiento en posibles iniciativas propias de traducción automática.

"En última instancia, con este proyecto pretendemos ayudar a fomentar el uso de las lenguas con menos recursos y que se publique más en dichas lenguas", incide el investigador. "Por ejemplo, todas las leyes podrían publicarse en dos lenguas de forma rápida y eficiente, invirtiendo menos recursos, aunque siempre se necesitaría una revisión humana. Además, las personas que no se atreven a usar estas lenguas porque no se sienten seguras pueden apoyarse en estas herramientas para mejorar sus textos. Por último, las lenguas como el asturiano, el aragonés o el aranés deben formar parte de las tecnologías digitales. Si no, pueden ir desapareciendo y ser olvidadas", concluye Oliver.

Imprimir Subir

TE PUEDE INTERESAR...

Tendencias

Las lecciones de aprendidas de Linkedin al implementar LLM para millones de usuarios

Unicaja Banco confía su transformación digital a Kyndryl.

Banca y seguros

Unicaja optimiza su plataforma tecnológica con vistas a eficientar su ‘mainframe’

Tendencias

Justicia algorítmica y diversidad de talento, garantías para una IA humanista

Tendencias

La innovación de las startups impulsa la mejora de la experiencia de cliente

Transporte & Logística

Grupo La Poste mejora la gobernanza de su sistema de información

Tendencias

La Historia Hispánica, ahora también en clave digital

Tendencias

De los "egosistemas" a los ecosistemas: el poder transformador de los gemelos digitales

Tendencias

La fiebre del oro de la IA generativa impulsa el gasto en TI, pero su rentabilidad está en entredicho

Administraciones Públicas

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

Administraciones Públicas

Geografía y copilotos, aliados para los CIO de la Administración

inteligencia artificial y ciberseguridad

Tendencias

Los copilotos de IA generativa no convencen a los CIO

Administraciones Públicas

Radiografía de la Administración pública local y regional en clave tecnológica

Administraciones Públicas

El Viejo Continente se abre camino hacia la Década Digital 2030

Administraciones Públicas

De la Administración electrónica a la burocracia invisible

Tendencias

El grupo de centros deportivos GO fit optimiza su gestión financiera con IA y 'deep learning'

Liderazgo & Gestión TI

¿Qué es un proveedor de servicios gestionados? La externalización estratégica de servicios informáticos

CASOS DE ÉXITO

Cuatrecasas apuesta por la inteligencia artificial para mejorar el trabajo de sus abogados

17 ABR 2024

La firma, cuenta Francesc Muñoz, su CIO, apuesta constantemente por la innovación y la adopción de nuevas tecnologías para seguir mejorando y aportar mayor valor y eficiencia a los clientes.

La innovación alcanza velocidad de crucero en el vigésimo aniversario de Vueling

16 ABR 2024

Tras el despegue de la estrategia de transformación digital de la aerolínea y la consolidación de la innovación como motor propulsor, Javier Álvarez, CIO de Vueling, descifra cómo abordan el desafío de mejora continua.

A FONDO

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

La división española de Thales Alenia Space, al mando de las comunicaciones en la misión NEO Surveyor de la NASA

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Tecnología e innovación, el Olimpo del turismo

Accede a nuestra publicación de canal

Documentos ComputerWorld

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

12 FEB 2024

Para muchas organizaciones, la red empresarial es el eslabón más débil en su cadena de infraestructura. Por eso, las empresas deberán tener una red moderna, ágil yresiliente. Averigua en este libro electrónico a qué desafíos de red se enfrentan las compañías y cómo abordarlos.

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

15 ENE 2024

La capacidad de adaptarse y evolucionar rápidamente es esencial para el éxito de cualquier empresa y, en este contexto, la elección de una infraestructura tecnológica sólida es vital. SAP S/4HANA Cloud, Public Edition emerge como una opción revolucionaria para impulsar la eficiencia operativa y la innovación empresarial.