Deduplicación de datos: optimizando la capacidad disponible

CIO
27 MAR 2007

La protección de datos está cambiando rápidamente, y, según la mayoría de los expertos, para bien. Una de las nuevas propuestas más interesantes es la deduplicación de datos, también conocida como “optimización de la capacidad disponible”, “commonality factoring” o “almacenamiento de única instancia”, según el lenguaje preferido por cada suministrador. La deduplicación de datos ha emergido como una tecnología clave en el intento de reducir la cantidad de datos sobre los que diariamente se realiza backup; una cantidad que en muchas empresas aumenta a ritmos superiores al 100% anual.

En un reciente informe, la consultora IDC aseguraba que el mundo necesitaba más espacio de almacenamiento. La capacidad disponible resultará, según la firma, insuficiente ya en 2007 para guardar las ingentes y crecientes cantidades de datos que generan a diario consumidores, empresas, asociaciones y gobiernos. Si los ritmos actuales continúan y no se encuentra alguna solución, el volumen global de datos creados a nivel mundial habrá aumentado a 988 exabytes –988.000 millones de gigabytes- en 2010, mientras que la capacidad de los sistemas para almacenarlos será de tan sólo 600 exabytes. Y la deduplicación puede ser una solución, al menos parcial, al problema.

Por ejemplo, John Thomas, director de TI de la firma de abogados de Atlanta Troutman Sanders, asegura que utilizando estas tecnologías ha podido reducir de manera espectacular la cantidad de datos que llegan en flujos a la organización desde sus más de doce oficinas remotas. Gracias a ellas, ha recortado la ventana de tiempo de backup de 11 horas a 50 minutos. Thomas estima haber conseguido un ratio de compresión para sus backups de 55:1.

También conocidas como tecnologías de almacenamiento de una sola instancia, su funcionamiento se basa en la eliminación de las copias redundantes que puedan existir en copias de seguridad (backup) completas e incrementales. Con ellas, algunas empresas aseguran haber podido almacenar un año completo de copias de backup en la mismo capacidad que, antes de su introducción, quedaba agotada en dos o tres semanas.

Más allá del backup incremental
En el contexto del backup, la deduplicación va un paso significativo más allá de los backups incrementales. Éstos minimizan el tráfico de backup copiando sólo los bloques de datos que hayan cambiado después del backup anterior, pero la deduplicación copia sólo los bloques modificados y que, además, sean únicos.

En cualquiera de sus formas, la deduplicación tiene el potencial de ahorrar a los usuarios finales grandes cantidades de dólares en espacio de almacenamiento. Su aplicación continuada puede reducir los requerimientos de medios en el back-end de forma significativa, y ello sin sacrificar en absoluto la protección de los datos. De hecho, este tipo de soluciones proporcionan a menudo reducciones en tasas de 20 a uno en datos de backup; traducido a dólares, los costes de 30 dólares a 1,50 dólares por GB sometido a backup.

Pero los potenciales beneficios de su introducción no se limitan al ahorro de espacio de almacenamiento. Como resultado de los enormes ratios de compresión facilitados por la tecnología de deduplicación, el disco se está convirtiendo en una alternativa de soporte de almacenamiento más atractiva y viable; una alternativa online capaz de sustituir los tradicionales sistemas de backup basados en cinta acelerando muchos procesos empresariales, además de optimizar el uso del ancho de banda corporativo y facilitar la gestión centralizada.

Gestión centralizada y ahorros de ancho de banda
Por ejemplo, las personas que trabajan en sucursales remotas necesitan acceso instantáneo a todos los datos y aplicaciones disponibles en la sede de su organización. Para facilitárselo, los departamentos de TI generalmente se han visto obligados a desplegar mini-centros de datos en ellas, con servidores de aplicación, almacenamiento de datos basado en bloques y ficheros, cintas de backup e impresoras de informes, sacrificando así el control administrativo. Pero utilizando la deduplicación, los backups pueden realizarse sobre la WAN utilizando el ancho de banda disponible y desaprovechado en períodos de inactividad (p.e. durante la noches si el negocio funciona con un horario convencional), y eliminando así la necesidad de cintas en los sitios remotos.

De esta manera, la deduplicación está emergiendo como una opción cada vez más robusta para minimizar la redundancia de datos en los principales sistemas de almacenamiento, pero también como un medio de hacer posible diversos servicios WAN, dado que la replicación se hace mucho más asequible si se consigue minimizar el tráfico WAN. Aunque ha estado disponible ya en el año pasado a través de startups como Asigra, Avamar (adquirida por EMC en noviembre de 2006), DataDamain y Diligent, y proveedores de software OEM, como Recksoft, en los últimos tiempos ha conseguido hacerse un respetable hueco en las estrategias de todos los proveedores de protección de datos.

De cualquier modo, no todas las soluciones de deduplicación –a las que algunos se refieren como de-dupe para abreviar- son iguales ni se ajustan de la misma manera a todas las empresas. Los suministradores han asumido enfoques diferentes para esta tecnología, lo que ha resultado en una multiplicidad de productos con los que los usuarios deberían familiarizarse para elegir la alternativa que mejor se adapte a sus entornos.

Común a todas es, como se ha dicho, la aplicación de técnicas de detección de factores comunes en la información para reducir la cantidad de datos ya sea a nivel del servidor de backup (fuente) o del dispositivo de almacenamiento de destino. Una vez detectada la información redundante, consolidan datos duplicados, eliminando archivos redundantes y reduciendo al mínimo la cantidad posible cuando se actualizan los ficheros.

Deduplicación en fuente o en destino
Pero ésto puede hacerse a dos niveles diferentes. Más concretamente, la duplicación puede realizarse a nivel de algún tipo de sistema de backup (deduplicación en destino) o a nivel de la fuente de datos a los que se aplica el backup, como puede ser el servidor de aplicación (deduplicación en fuente). Tradicionalmente, los productos de deduplicación más frecuentes han sido los del primer tipo, pero, según Greg Schulz, analista senior de The SotrageIO Group, existe un creciente interés en su aplicación a nivel de servidor. En opinión de Schulz aunque todavía hoy el método de duplicación de datos principal es a nivel de destino, la deduplicación en fuente es un método más innovador capaz de aportar beneficios aún mayores.

Por tanto una primera forma de diferenciar

Imprimir Subir

TE PUEDE INTERESAR...

Tendencias

Justicia algorítmica y diversidad de talento, garantías para una IA humanista

Tendencias

La innovación de las startups impulsa la mejora de la experiencia de cliente

Transporte & Logística

Grupo La Poste mejora la gobernanza de su sistema de información

Tendencias

La Historia Hispánica, ahora también en clave digital

Tendencias

De los "egosistemas" a los ecosistemas: el poder transformador de los gemelos digitales

Tendencias

La fiebre del oro de la IA generativa impulsa el gasto en TI, pero su rentabilidad está en entredicho

Administraciones Públicas

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

Administraciones Públicas

Geografía y copilotos, aliados para los CIO de la Administración

inteligencia artificial y ciberseguridad

Tendencias

Los copilotos de IA generativa no convencen a los CIO

Administraciones Públicas

Radiografía de la Administración pública local y regional en clave tecnológica

Administraciones Públicas

El Viejo Continente se abre camino hacia la Década Digital 2030

Administraciones Públicas

De la Administración electrónica a la burocracia invisible

Tendencias

El grupo de centros deportivos GO fit optimiza su gestión financiera con IA y 'deep learning'

Liderazgo & Gestión TI

¿Qué es un proveedor de servicios gestionados? La externalización estratégica de servicios informáticos

Liderazgo & Gestión TI

Cómo ser el CIO que toda empresa desea

Entrevistas

“El gran reto consiste en seguir el compás de la innovación de los grandes modelos del lenguaje”

CASOS DE ÉXITO

Cuatrecasas apuesta por la inteligencia artificial para mejorar el trabajo de sus abogados

17 ABR 2024

La firma, cuenta Francesc Muñoz, su CIO, apuesta constantemente por la innovación y la adopción de nuevas tecnologías para seguir mejorando y aportar mayor valor y eficiencia a los clientes.

La innovación alcanza velocidad de crucero en el vigésimo aniversario de Vueling

16 ABR 2024

Tras el despegue de la estrategia de transformación digital de la aerolínea y la consolidación de la innovación como motor propulsor, Javier Álvarez, CIO de Vueling, descifra cómo abordan el desafío de mejora continua.

A FONDO

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

La división española de Thales Alenia Space, al mando de las comunicaciones en la misión NEO Surveyor de la NASA

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Tecnología e innovación, el Olimpo del turismo

Accede a nuestra publicación de canal

Documentos ComputerWorld

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

12 FEB 2024

Para muchas organizaciones, la red empresarial es el eslabón más débil en su cadena de infraestructura. Por eso, las empresas deberán tener una red moderna, ágil yresiliente. Averigua en este libro electrónico a qué desafíos de red se enfrentan las compañías y cómo abordarlos.

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

15 ENE 2024

La capacidad de adaptarse y evolucionar rápidamente es esencial para el éxito de cualquier empresa y, en este contexto, la elección de una infraestructura tecnológica sólida es vital. SAP S/4HANA Cloud, Public Edition emerge como una opción revolucionaria para impulsar la eficiencia operativa y la innovación empresarial.