Big Data
IA

La NASA acelera la ciencia con una búsqueda impulsada por inteligencia artificial

Con el fin de brindar a los científicos un mejor acceso a la gran cantidad de datos que recopila, la NASA ha creado un motor de descubrimiento científico que aprovecha la IA generativa para ofrecer resultados contextuales.

nasa

Cuando se generan y recopilan tantos datos como lo hace la Administración Nacional de Aeronáutica y del Espacio (NASA) de EE.UU, encontrar el conjunto de datos adecuado para un proyecto de investigación puede ser un problema.

Con siete centros operativos, nueve instalaciones de investigación y más de 18.000 empleados, la agencia genera continuamente una abrumadora cantidad de datos que almacena en más de 30 repositorios de datos científicos en cinco áreas temáticas: astrofísica, heliofísica, ciencias biológicas, ciencias físicas, ciencias de la tierra y ciencias planetarias. En general, la agencia alberga más de 88.000 conjuntos de datos y 715.000 documentos en 128 fuentes de datos. Se espera que sólo sus datos de ciencias terrestres alcancen los 250 petabytes para 2025. A la luz de tal complejidad, los científicos necesitan algo más que experiencia en el campo para navegar a través de todo ello.

"Requiere que los investigadores sepan a qué repositorio ir y qué tiene ese repositorio", dice Kaylin Bugbee, científica de datos de la NASA en el Centro Marshall de Vuelos Espaciales en Huntsville, Alabama. "Hay que tener conocimientos científicos y de datos".

En 2019, la Dirección de Misiones Científicas (SMD) de la NASA publicó un informe basado en una serie de entrevistas con científicos que dejaban claro que esos científicos necesitaban una capacidad de búsqueda centralizada que les ayudara a encontrar los datos que necesitaban. La misión del SMD es colaborar con la comunidad científica estadounidense, patrocinar investigaciones científicas y utilizar programas de aviones, globos y vuelos espaciales para investigaciones en la órbita terrestre, en el Sistema Solar y más allá. Reconociendo que dar a los científicos e investigadores acceso a sus datos era fundamental para su propósito, SMD desarrolló su Iniciativa Científica de Código Abierto (OSSI) como resultado de ese informe en un esfuerzo por hacer que la investigación científica financiada con fondos públicos sea transparente, inclusiva, accesible y reproducible. La misión de OSSI: un compromiso con el intercambio abierto de software, datos y conocimientos (incluidos algoritmos, artículos, documentos e información auxiliar) lo antes posible en el proceso científico.

"Realmente surgió de los científicos y de la comunidad científica, y también se alinea con nuestra prioridad más amplia de SMD de permitir la ciencia interdisciplinaria", comenta Bugbee. "Ahí es donde se hacen nuevos descubrimientos".

Para facilitar esa misión, la agencia ahora está recurriendo a una combinación de redes neuronales e inteligencia artificial generativa para poner esas grandes cantidades de datos al alcance de los científicos. 

 

Restaurando el orden

Un elemento clave de OSSI es Science Discovery Engine (SDE), una capacidad centralizada de búsqueda y descubrimiento de todos los datos e información científicos abiertos de la NASA, impulsada por la plataforma de búsqueda empresarial de Sinequa.

"Hasta que se creó el SDE, no se podía ir a un solo lugar para buscar nuestra documentación y datos abiertos", dice Bugbee. "Ahora sirve como una capacidad de búsqueda única para nuestros datos científicos abiertos".

Sinequa, con sede en Nueva York, que comenzó hace más de dos décadas con un motor de búsqueda semántica, se centra en aprovechar la IA y los grandes modelos lingüísticos (LLM) para ofrecer información de búsqueda contextual. Desde entonces, ha integrado el servicio Azure OpenAI de Microsoft con sus propias capacidades de búsqueda neuronal para impulsar la plataforma.

Específicamente, la capacidad de búsqueda neuronal de Sinequa utiliza una combinación de búsqueda de palabras clave y vectores para descubrir información, mientras que su GPT resume la información recopilada en formatos rápidamente digeribles y reutilizables. También permite a los científicos utilizar el lenguaje natural para hacer preguntas más profundas y refinar la búsqueda o la respuesta. El SDE comprende casi 9.000 términos científicos diferentes y se espera que ese número crezca a medida que la IA aprende.

Bugbee y su equipo interdisciplinario, que incluye científicos con experiencia en administración de datos e informática, así como desarrolladores y expertos en inteligencia artificial y aprendizaje automático, trabajaron estrechamente con las partes interesadas para comprender sus necesidades, y también con la Oficina del CIO de la NASA y Sinequa para construir una prueba de concepto.

"Nos ayudaron a crear el entorno que necesitábamos", explica. "Teníamos que tener una capacidad abierta, por lo que teníamos algunas necesidades arquitectónicas especiales".

Bugbee dice que uno de los mayores desafíos de su equipo para poner todo en funcionamiento fue cuán disperso estaba el contenido en todo el ecosistema de la NASA. Su equipo pasó aproximadamente un año intentando comprender el panorama de la información, los datos y los esquemas de metadatos.

“Toda la información contextual que realmente aporta riqueza a los datos (cosas como código y GitHub, o documentación de algoritmos que describe cómo se desarrollaron los datos) ese tipo de contenido se distribuye en varias páginas web y ha sido un esfuerzo seleccionarlas e identificar dónde residen todas esas cosas”, dice.

 

Autorizado para su lanzamiento

Bugbee no es ajeno a la gestión y administración de datos. Se inició en el campo trabajando para mejorar la calidad de los metadatos en Data.gov y en la Iniciativa de Datos Climáticos del presidente Obama. Pero trabajar en el SDE realmente me hizo comprender la importancia de un buen flujo de trabajo de curación: los procesos para la creación, el mantenimiento y la gestión de datos controlados y basados en principios.

"Si pudiera retroceder en el tiempo, tendría un flujo de trabajo de curación más sólido integrado desde el principio", afirma. "Utilizamos un enfoque innovador para empezar y funcionó durante un tiempo, pero para obtener realmente los resultados que queríamos, necesitábamos ese flujo de trabajo de selección".

Si bien el SDE todavía está en versión beta, Bugbee dice que su equipo ha recibido una gran cantidad de comentarios positivos de los científicos hasta la fecha, y el plan es entregar un sistema más operativo a finales de este año. El equipo ya ha implementado una nueva interfaz de usuario que permite a los usuarios filtrar por temas antes de comenzar su búsqueda.



TE PUEDE INTERESAR...

CASOS DE ÉXITO

Accede a nuestra publicación de canal

DealerWorld Digital

Documentos ComputerWorld

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS