¿Qué es el PLN o Procesamiento del Lenguaje Natural?

El procesamiento del lenguaje natural es una rama de la IA que permite a los ordenadores comprender, procesar y generar lenguaje igual que lo hacen las personas. Su uso en las empresas está creciendo rápidamente.

Cómo funciona el procesamiento del lenguaje natural

El PLN utiliza algoritmos de aprendizaje automático (machine learning o ML) entrenados en datos no estructurados, normalmente texto, para analizar cómo se estructuran los elementos del lenguaje humano para transmitir significado. Frases, oraciones y, a veces, libros enteros se introducen en motores de machine learning, donde se procesan utilizando reglas gramaticales, hábitos lingüísticos de la vida real de las personas y otros datos similares. Un algoritmo de PNL utiliza estos datos para encontrar patrones y extrapolar lo que viene después. Por ejemplo, un algoritmo de traducción que reconoce que, en francés, "Voy al parque" es "Je vais au parc" aprenderá a predecir que "Voy a la tienda" también empieza por "Je vais au". Todo lo que el algoritmo necesita entonces es la palabra para "store" para completar la tarea de traducción.

Aplicaciones de la PLN

La traducción automática es una potente aplicación de la PNL, pero la búsqueda es la más utilizada. Cada vez que buscas algo en Google o Bing, estás ayudando a entrenar al sistema. Cuando haces clic en un resultado de búsqueda, el sistema lo interpreta como una confirmación de que los resultados que ha encontrado son correctos y utiliza esta información para mejorar los resultados de búsqueda en el futuro.

Los chatbots funcionan de la misma manera. Se integran en Slack, Microsoft Messenger y otros programas de chat, donde leen el lenguaje que utilizas y se activan cuando escribes una frase desencadenante. Los asistentes de voz como Siri y Alexa también se ponen en marcha cuando oyen frases como "Oye, Alexa". Por eso los críticos dicen que estos programas están siempre a la escucha; si no, nunca sabrían cuándo los necesitas. A menos que enciendas una aplicación manualmente, los programas de PNL deben funcionar en segundo plano, esperando esa frase.

Los modelos de 'transformer' llevan a un nuevo nivel aplicaciones como la traducción de idiomas y los chatbots. Innovaciones como el mecanismo de autoatención y la atención multicabezal permiten a estos modelos sopesar mejor la importancia de las distintas partes de la entrada y procesarlas en paralelo en lugar de secuencialmente.

Rajeswaran V, director senior de Capgemini, señala que el modelo GPT-3 de Open AI ha dominado el lenguaje sin utilizar ningún dato etiquetado. Al basarse en la morfología (el estudio de las palabras, cómo se forman y su relación con otras palabras del mismo idioma), GPT-3 puede realizar la traducción lingüística mucho mejor que los modelos de última generación existentes, afirma. Los sistemas de PLN que se basan en modelos transformadores son especialmente potentes en NLG.

Ejemplos de procesamiento del lenguaje natural

Los datos se presentan en muchas formas, pero la mayor reserva de datos sin explotar es el texto, sobre todo el no estructurado. Las patentes, las especificaciones de productos, las publicaciones académicas, los estudios de mercado, las noticias, por no hablar de las redes sociales, todos tienen texto como componente principal y el volumen de texto no deja de crecer. Si aplicamos la tecnología a la voz, el volumen es aún mayor.

Hay varios ejemplos de cómo las empresas ponen en práctica esta tecnología. Uno es el de Edmunds, el recurso online de información e inventario de automóviles´, que ha creado un complemento ChatGPT que expone sus datos no estructurados (reseñas de vehículos, valoraciones, editoriales) a la IA generativa. El complemento permite a ChatGPT responder a las preguntas de los usuarios sobre vehículos con su contenido especializado, lo que atrae tráfico a su sitio web.

Otro ejemplo es el de la empresa farmacéutica Lilly, que desarrolló Lilly Translate, una solución de PNL de producción propia, para ayudar a traducir desde materiales de formación interna hasta comunicaciones técnicas formales a las agencias reguladoras. Lilly Translate utiliza NLP y modelos lingüísticos de aprendizaje profundo entrenados con contenido de ciencias de la vida y de Lilly para proporcionar traducción en tiempo real de Word, Excel, PowerPoint y texto para usuarios y sistemas.

Un caso más es el de la consultora de TI Accenture, que utiliza PNL para analizar contratos. La herramienta Accenture Legal Intelligent Contract Exploration (ALICE) de la empresa ayuda a la organización jurídica de la empresa de servicios globales, formada por 2800 profesionales, a realizar búsquedas de texto en sus más de un millón de contratos, incluidas búsquedas de cláusulas contractuales. ALICE utiliza "incrustación de palabras" para recorrer los documentos contractuales párrafo a párrafo, buscando palabras clave para determinar si el párrafo está relacionado con un tipo concreto de cláusula contractual.

Software de procesamiento del lenguaje natural

Tanto si estamos creando un chatbot, un asistente de voz, una aplicación de texto predictivo u otra aplicación cuyo núcleo sea el PLN, necesitaremos herramientas que nos ayuden a hacerlo. Según Technology Evaluation Centers, el software más popular incluye:

- Natural Language Toolkit (NLTK), un marco de código abierto para construir programas Python que trabajen con datos de lenguaje humano. Se desarrolló en el Departamento de Informática y Ciencias de la Información de la Universidad de Pensilvania y ofrece interfaces para más de 50 corpus y recursos léxicos, un conjunto de bibliotecas de procesamiento de textos, envoltorios para bibliotecas de procesamiento del lenguaje natural y un foro de debate. NLTK se ofrece bajo licencia Apache 2.0.

- Mallet, paquete de código abierto basado en Java para PNL estadístico, clasificación de documentos, clustering, modelado de temas, extracción de información y otras aplicaciones de ML al texto. Fue desarrollado principalmente en la Universidad de Massachusetts Amherst.
SpaCy, una biblioteca de código abierto para el procesamiento avanzado del lenguaje natural diseñada explícitamente para su uso en producción y no en investigación. Con licencia del MIT, SpaCy se creó pensando en la ciencia de datos de alto nivel y permite la minería de datos en profundidad.

- Amazon Comprehend. Este servicio de Amazon no requiere experiencia en ML. Está pensado para ayudar a las organizaciones a encontrar información en correos electrónicos, comentarios de clientes, redes sociales, tickets de soporte y otros textos. Utiliza el análisis de sentimientos, la extracción de partes del discurso y la tokenización para analizar la intención de las palabras.
Traducción en la nube de Google. Esta API utiliza NLP para examinar un texto de origen y determinar el idioma y, a continuación, utiliza la traducción automática neuronal para traducir dinámicamente el texto a otro idioma. La API permite a los usuarios integrar la funcionalidad en sus propios programas.

Cursos de procesamiento del lenguaje natural

Hay una gran variedad de recursos disponibles para aprender a crear y mantener aplicaciones de PNL, muchos de los cuales son gratuitos. Entre ellos se incluyen:

- NLP (Natural Language Processing) with Python de Udemy. Este curso proporciona una introducción al procesamiento del lenguaje natural en Python, pasando por temas avanzados como el análisis de sentimientos y la creación de chatbots. Consta de 11,5 horas de vídeo a la carta, dos artículos y tres recursos descargables. El curso cuesta 94,99 dólares e incluye un certificado de finalización.

- Ciencia de datos: Natural Language Processing in Python de Udemy. Dirigido a principiantes en PLN que dominen Python, este curso incluye la creación de una serie de aplicaciones y modelos de PLN, como un algoritmo de descifrado de cifrado, un detector de spam, un modelo de análisis de sentimientos y un generador de artículos. El curso consta de 12 horas de vídeo a la carta y cuesta 99,99 dólares, lo que incluye un certificado de finalización.

- Especialización en Procesamiento del Lenguaje Natural de Coursera. Este conjunto de cuatro cursos de nivel intermedio tiene como objetivo preparar a los estudiantes para diseñar aplicaciones de PLN como análisis de sentimientos, traducción, resumen de texto y chatbots. Incluye un certificado profesional.

- Hands On Natural Language Processing (NLP) using Python de Udemy. Este curso es para personas con experiencia básica en programación en cualquier lenguaje, una comprensión de los conceptos de programación orientada a objetos, conocimientos de matemáticas básicas a intermedias, y el conocimiento de las operaciones matriciales. Está completamente basado en proyectos e implica la construcción de un clasificador de texto para predecir el sentimiento de los tweets en tiempo real, y un resumidor de artículos que puede obtener artículos y encontrar el resumen. El curso consta de 10,5 horas de vídeo a la carta y ocho artículos, y cuesta 19,99 dólares, lo que incluye un certificado de finalización.

- Procesamiento del Lenguaje Natural en TensorFlow por Coursera. Este curso es parte de la especialización TensorFlow in Practice de Coursera, y cubre el uso de TensorFlow para construir sistemas de procesamiento de lenguaje natural que pueden procesar texto y frases de entrada en una red neuronal. Coursera dice que es un curso de nivel intermedio y estima que tomará cuatro semanas de estudio a cuatro o cinco horas por semana para completarlo.

Imprimir Subir

TE PUEDE INTERESAR...

Tendencias

Las lecciones de aprendidas de Linkedin al implementar LLM para millones de usuarios

Unicaja Banco confía su transformación digital a Kyndryl.

Banca y seguros

Unicaja optimiza su plataforma tecnológica con vistas a eficientar su ‘mainframe’

Tendencias

Justicia algorítmica y diversidad de talento, garantías para una IA humanista

Tendencias

La innovación de las startups impulsa la mejora de la experiencia de cliente

Transporte & Logística

Grupo La Poste mejora la gobernanza de su sistema de información

Tendencias

La Historia Hispánica, ahora también en clave digital

Tendencias

De los "egosistemas" a los ecosistemas: el poder transformador de los gemelos digitales

Tendencias

La fiebre del oro de la IA generativa impulsa el gasto en TI, pero su rentabilidad está en entredicho

Administraciones Públicas

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

Administraciones Públicas

Geografía y copilotos, aliados para los CIO de la Administración

inteligencia artificial y ciberseguridad

Tendencias

Los copilotos de IA generativa no convencen a los CIO

Administraciones Públicas

Radiografía de la Administración pública local y regional en clave tecnológica

Administraciones Públicas

El Viejo Continente se abre camino hacia la Década Digital 2030

Administraciones Públicas

De la Administración electrónica a la burocracia invisible

Tendencias

El grupo de centros deportivos GO fit optimiza su gestión financiera con IA y 'deep learning'

Liderazgo & Gestión TI

¿Qué es un proveedor de servicios gestionados? La externalización estratégica de servicios informáticos

CASOS DE ÉXITO

Cuatrecasas apuesta por la inteligencia artificial para mejorar el trabajo de sus abogados

17 ABR 2024

La firma, cuenta Francesc Muñoz, su CIO, apuesta constantemente por la innovación y la adopción de nuevas tecnologías para seguir mejorando y aportar mayor valor y eficiencia a los clientes.

La innovación alcanza velocidad de crucero en el vigésimo aniversario de Vueling

16 ABR 2024

Tras el despegue de la estrategia de transformación digital de la aerolínea y la consolidación de la innovación como motor propulsor, Javier Álvarez, CIO de Vueling, descifra cómo abordan el desafío de mejora continua.

A FONDO

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

La división española de Thales Alenia Space, al mando de las comunicaciones en la misión NEO Surveyor de la NASA

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Tecnología e innovación, el Olimpo del turismo

Accede a nuestra publicación de canal

Documentos ComputerWorld

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

12 FEB 2024

Para muchas organizaciones, la red empresarial es el eslabón más débil en su cadena de infraestructura. Por eso, las empresas deberán tener una red moderna, ágil yresiliente. Averigua en este libro electrónico a qué desafíos de red se enfrentan las compañías y cómo abordarlos.

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

15 ENE 2024

La capacidad de adaptarse y evolucionar rápidamente es esencial para el éxito de cualquier empresa y, en este contexto, la elección de una infraestructura tecnológica sólida es vital. SAP S/4HANA Cloud, Public Edition emerge como una opción revolucionaria para impulsar la eficiencia operativa y la innovación empresarial.