Deduplicación de datos: optimizando la capacidad disponible

 La protección de datos está cambiando rápidamente, y, según la mayoría de los expertos, para bien. Una de las nuevas propuestas más interesantes es la deduplicación de datos, también conocida como “optimización de la capacidad disponible”, “commonality factoring” o “almacenamiento de única instancia”, según el lenguaje preferido por cada suministrador. La deduplicación de datos ha emergido como una tecnología clave en el intento de reducir la cantidad de datos sobre los que diariamente se realiza backup; una cantidad que en muchas empresas aumenta a ritmos superiores al 100% anual.

En un reciente informe, la consultora IDC aseguraba que el mundo necesitaba más espacio de almacenamiento. La capacidad disponible resultará, según la firma, insuficiente ya en 2007 para guardar las ingentes y crecientes cantidades de datos que generan a diario consumidores, empresas, asociaciones y gobiernos. Si los ritmos actuales continúan y no se encuentra alguna solución, el volumen global de datos creados a nivel mundial habrá aumentado a 988 exabytes –988.000 millones de gigabytes- en 2010, mientras que la capacidad de los sistemas para almacenarlos será de tan sólo 600 exabytes. Y la deduplicación puede ser una solución, al menos parcial, al problema.


Por ejemplo, John Thomas, director de TI de la firma de abogados de Atlanta Troutman Sanders, asegura que utilizando estas tecnologías ha podido reducir de manera espectacular la cantidad de datos que llegan en flujos a la organización desde sus más de doce oficinas remotas. Gracias a ellas, ha recortado la ventana de tiempo de backup de 11 horas a 50 minutos. Thomas estima haber conseguido un ratio de compresión para sus backups de 55:1.

También conocidas como tecnologías de almacenamiento de una sola instancia, su funcionamiento se basa en la eliminación de las copias redundantes que puedan existir en copias de seguridad (backup) completas e incrementales. Con ellas, algunas empresas aseguran haber podido almacenar un año completo de copias de backup en la mismo capacidad que, antes de su introducción, quedaba agotada en dos o tres semanas.

Más allá del backup incremental
En el contexto del backup, la deduplicación va un paso significativo más allá de los backups incrementales. Éstos minimizan el tráfico de backup copiando sólo los bloques de datos que hayan cambiado después del backup anterior, pero la deduplicación copia sólo los bloques modificados y que, además, sean únicos.

En cualquiera de sus formas, la deduplicación tiene el potencial de ahorrar a los usuarios finales grandes cantidades de dólares en espacio de almacenamiento. Su aplicación continuada puede reducir los requerimientos de medios en el back-end de forma significativa, y ello sin sacrificar en absoluto la protección de los datos. De hecho, este tipo de soluciones proporcionan a menudo reducciones en tasas de 20 a uno en datos de backup; traducido a dólares, los costes de 30 dólares a 1,50 dólares por GB sometido a backup.

Pero los potenciales beneficios de su introducción no se limitan al ahorro de espacio de almacenamiento. Como resultado de los enormes ratios de compresión facilitados por la tecnología de deduplicación, el disco se está convirtiendo en una alternativa de soporte de almacenamiento más atractiva y viable; una alternativa online capaz de sustituir los tradicionales sistemas de backup basados en cinta acelerando muchos procesos empresariales, además de optimizar el uso del ancho de banda corporativo y facilitar la gestión centralizada.

Gestión centralizada y ahorros de ancho de banda
Por ejemplo, las personas que trabajan en sucursales remotas necesitan acceso instantáneo a todos los datos y aplicaciones disponibles en la sede de su organización. Para facilitárselo, los departamentos de TI generalmente se han visto obligados a desplegar mini-centros de datos en ellas, con servidores de aplicación, almacenamiento de datos basado en bloques y ficheros, cintas de backup e impresoras de informes, sacrificando así el control administrativo. Pero utilizando la deduplicación, los backups pueden realizarse sobre la WAN utilizando el ancho de banda disponible y desaprovechado en períodos de inactividad (p.e. durante la noches si el negocio funciona con un horario convencional), y eliminando así la necesidad de cintas en los sitios remotos.

De esta manera, la deduplicación está emergiendo como una opción cada vez más robusta para minimizar la redundancia de datos en los principales sistemas de almacenamiento, pero también como un medio de hacer posible diversos servicios WAN, dado que la replicación se hace mucho más asequible si se consigue minimizar el tráfico WAN. Aunque ha estado disponible ya en el año pasado a través de startups como Asigra, Avamar (adquirida por EMC en noviembre de 2006), DataDamain y Diligent, y proveedores de software OEM, como Recksoft, en los últimos tiempos ha conseguido hacerse un respetable hueco en las estrategias de todos los proveedores de protección de datos.

De cualquier modo, no todas las soluciones de deduplicación –a las que algunos se refieren como de-dupe para abreviar- son iguales ni se ajustan de la misma manera a todas las empresas. Los suministradores han asumido enfoques diferentes para esta tecnología, lo que ha resultado en una multiplicidad de productos con los que los usuarios deberían familiarizarse para elegir la alternativa que mejor se adapte a sus entornos.

Común a todas es, como se ha dicho, la aplicación de técnicas de detección de factores comunes en la información para reducir la cantidad de datos ya sea a nivel del servidor de backup (fuente) o del dispositivo de almacenamiento de destino. Una vez detectada la información redundante, consolidan datos duplicados, eliminando archivos redundantes y reduciendo al mínimo la cantidad posible cuando se actualizan los ficheros.

Deduplicación en fuente o en destino
Pero ésto puede hacerse a dos niveles diferentes. Más concretamente, la duplicación puede realizarse a nivel de algún tipo de sistema de backup (deduplicación en destino) o a nivel de la fuente de datos a los que se aplica el backup, como puede ser el servidor de aplicación (deduplicación en fuente). Tradicionalmente, los productos de deduplicación más frecuentes han sido los del primer tipo, pero, según Greg Schulz, analista senior de The SotrageIO Group, existe un creciente interés en su aplicación a nivel de servidor. En opinión de Schulz aunque todavía hoy el método de duplicación de datos principal es a nivel de destino, la deduplicación en fuente es un método más innovador capaz de aportar beneficios aún mayores.

Por tanto una primera forma de diferenciar

TE PUEDE INTERESAR...

CASOS DE ÉXITO

Accede a nuestra publicación de canal

DealerWorld Digital

Documentos ComputerWorld

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS