Actualidad

HP extiende al Big Data el uso del lenguaje R de programación

Distributed R puede ser usada para analizar grandes conjuntos de datos alojados en múltiples servidores.

HP sede

Hewlett-Packard ha visto un forma de hacer funcionar los programas escritos en lenguaje estadístico R a lo largo de los conjuntos de datos que se alojan en más de un servidor, preparando el camino hacia el análisis predictivo en tiempo real y a gran escala.

 

“Historicamente el uso del Big Data se ha focalizado siempre en el pasado” ha dicho Jeff Veis, vicepresidente de marketing para la unidad de negocio de Big Data. Mientras que el nuevo software permitiría a las organizaciones “anticiparse a las nuevas tendencias” usando grandes conjuntos de datos, ha agregado.

 

Mientras que varios paquetes comerciales ofrecen maneras de utilizar R en los clúster de los ordenadores, el nuevo Distributed R de HP es el primero en ofrecer esta capacidad en un paquete de código abierto, ha dicho el directivo.

 

Con millones de usuarios en todo el mundo, la fuente de código abierto R es uno de los lenguajes de programación más extendidos, especialmente diseñado para análisis estadísticos y predictivos, junto a SAS, MatLab, Mathematica y un número de librerías Pynthon. La ejecución de R con grandes conjuntos de datos ha sido, sin embargo, un desafío, ya que funciona como una sola secuencia en el ordenador. Esta aproximación limita la cantidad de datos que pueden ser analizados, por ello con frecuencia los científicos de datos analizan solo una muestra de los datos, y no la muestra entera, lo que potencialmente reduce la precisión del resultado.

 

El nuevo paquete de HP incluye un conjunto de algoritmos creados por Laboratorios HP para la ejecución de R en múltiples ordenadores a la vez, permitiendo el análisis de miles de millones de filas de datos. Esta aproximación permite analizar todo el conjunto de datos.

 

En primer lugar, HP creo Distributed R para ser ejecutado en el sistema de bases de datos orientados en columnas de Vertica, creado para facilitar el análisis de terabytes de datos.

 

Distributed R ha sido lanzado bajo la versión 2 de la licencia de código abierto GPL y puede funcionar con otras bases de datos y plataformas de proceso añadidas a Vertica, como Hadoop. Es completamente compatible con las herramientas de desarrollo R Studio y R console.



TE PUEDE INTERESAR...

CASOS DE ÉXITO

Accede a nuestra publicación de canal

DealerWorld Digital

Documentos ComputerWorld

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS