Como empresa dedicada a la distribución de contenidos a través de la red nos hemos encontrado en el camino con múltiples situaciones en las cuales ha sido necesario tomar una decisión muy crítica respecto del tipo de almacenamiento, tecnología y prestaciones necesarias para garantizar una alta disponibilidad y performance en el “delivery” de video bajo demanda (llamado por sus siglas en inglés VOD) independizando hasta donde ha sido posible los costos involucrados en las inversiones necesarias para ello.
Normalmente en nuestro país se ha establecido la condición “de facto estándar” que asigna a los sistemas RAID-5 el estatus de “mejor alternativa de almacenamiento” por sus características de redundancia y performance en lectura respecto de otros modelos de RAID, lo cual históricamente se ha hecho tomando como consideración fundamental el bajo costo por Gigabyte inherente a este modelo versus el almacenamiento ligado a los esquemas con redundancia completa y directa como el RAID-10.
Pero antes de comenzar la batalla hagamos una descripción general de estos esquemas y qué ofrece cada uno de ellos.
Los contendores muestran sus dones!
1.- Capacidad (CA):
Dentro de los esquemas redundantes el RAID-5 es una de las mejores alternativas en términos de uso del espacio de almacenamiento entregando una capacidad útil (CU) igual a la capacidad del la suma nominal de la capacidad de todos los discos (S) multiplicado por la cantidad de discos (CD) menos uno, todo dividido por la cantidad de discos.
CU = S*(CD-1)/CD
Por su lado el RAID-10 es simplemente un doble espejo de RAID-1 (también llamado RAID1+0 pues hace un “stripe” de dos espejos RAID-1) lo cual implica que el almacenamiento efectivo de un arreglo cualquiera es la suma de todas las capacidades de los discos divididas por dos.
CA = (Cd1+Cd2+Cd3+Cd4)/2
Donde Cdx es la capacidad de un disco cualquiera en este ejemplo de un arreglo de cuatro discos
En general tenemos que el espacio aprovechable para un arreglo clásico de 4 discos (por ejemplo con unidades de 600 GBytes) es, en el RAID-5 hasta un máximo de 1.800 Gbytes y en el RAID-10 solo de 1.200 Gbytes.
2.- Redundancia:
La forma en que un RAID-5 maneja las paridades ha resultado históricamente compleja de entender para la mayoría de los administradores de redes. Una forma simple de explicar el modo en el que se distribuye la información, es entendiendo el algoritmo “round robin” que almacena los datos de manera alterna y ordenada con una paridad saltando consecutivamente de un disco al siguiente cuando se suman datos al registro.
Se entiende entonces que el RAID-5 puede presentar fallas sin perder integridad – en uno y solo uno de sus discos – en tanto que el RAID-10 puede tolerar hasta dos fallos, siempre que ellos no estén en el mismo sub-espejo del sistema (o span físico).
3.- Velocidad secuencial (MB/s o MBps):
Suponiendo que se ha elegido un adecuado “strip size” para el formato de los discos tenemos que el RAID-10 puede ser hasta un 50% mas lento que el RAID-10. En tanto que en la escritura el RAID-5 sufre de un importante perjuicio, debido al cálculo de paridad que se realiza por la unidad reguladora de disco antes de localizar la redundancia en el arreglo.
4.- Velocidad random (IOPS):
Siguiendo la misma premisa de tamaño de bloques y política de lectura de datos ambos esquemas proveen de un desempeño similar (en general un 10% mas bajo para el RAID-10) y en el caso de la escritura el RAID-5 sufre de pérdida de velocidad por los mismos efectos que se heredan del modelo de paridad distribuida descritos en el punto anterior.
5.- Uso de recursos:
Usualmente encontraremos que los servidores, NAS, DAS y sistemas de almacenamiento para propósito VOD de alto nivel siempre descansarán el cálculo de paridad y control de unidades lógicas sobre una o dos controladoras de discos. Serán ellas quienes asumirán la mayor parte de la carga transaccional dejando el procesador del servidor (en caso que se esté usando uno) libre para operaciones de proceso general.
Esto, de todas formas no quita que los esquemas de RAID-5 sean reconocidos por su uso intensivo de recursos de cálculo de paridades, elemento que es completamente ajeno al RAID-10 pues en él se escriben los datos de manera directa sin cálculos en tiempo real.
En general, el concepto de aplicación de un sistema crítico para Grupo Z se basa en el siguiente precepto: “Los sistemas de almacenamiento no solo se evalúan por cómo se comportan cuando funcionan sino también cuando fallan pues algún día podrían hacerlo…”
DATOS A CONSIDERAR:
En general un RAID-5 resulta ser entre un 8% a un 10% más veloz que un RAID-10 en lectura tanto secuencial como aleatoria para archivos de video. Esto sin embargo no significa que el RAID-10 sea siempre mas lento que el RAID-5 ya que para todos los otros tipos de aplicaciones tales como son el webserving, las bases de datos, los servidores de correos e incluso el live streaming el RAID-10 supera al RAID-5 por un margen que oscila entre un 5% a un 90%
Por la naturaleza compleja del RAID-5 e independientemente de los algoritmos de corrección de errores, la tecnología involucrada en la confección y manufactura de los discos de clase empresarial y sus indemnizaciones (entre las cuales se encuentran los algoritmos TLER, los sistemas de aislamiento para vibraciones en configuraciones de múltiples discos e incluso las garantías extendidas de hasta 5 años) siempre existe la posibilidad de que la controladora o uno de los discos “comience” a fallar de manera sutil y esporádica devolviendo datos corruptos.
Este error es conocido en la industria como “falla parcial de medios” y en algunos casos puede no reportarse de manera adecuada al sistema operativo, lo que deja espacio para datos catastróficamente perdidos, fallas no recuperables e interminables dolores de cabeza (que con suerte no nos despertarán a mitad de la noche).
La posibilidad de falla natural y mínima de un RAID-10 es por concepto 50% menor al del RAID-5 pues se necesita que dos discos fallen simultáneamente en el arreglo y ellos estén en un mismo espejo (lo que disminuye aún más la probabilidad).
En estado degradado un RAID-5 pierde hasta un 70% de performance tanto en lectura como en escritura en tanto que un RAID-10 pierde menos de un 8%.
Dada la baja de performance en estado degradado, el RAID-5 debe forzar sus recursos para poder atender la misma concurrencia VOD, por tanto, los discos restantes pueden fallar en línea mientras el RAID está en este estado. Particularmente el punto más delicado ocurre con la sobredemanda de IOPS si el equipo de almacenamiento es productivo y se solicita la reconstrucción del arreglo en un momento de alto tráfico.
En comparación un RAID-10 no sufre estrés más allá del producido por la copia de un disco a su correspondiente espejo, a diferencia del RAID-5 que debe reconstruir la información acudiendo a todos y cada uno de los discos sobrevivientes.
Los RAID-10 tienen ventajas administrativas que permiten dividir el arreglo, declarar un disco como inactivo (supongamos un mantenimiento programado) para hacer un backup del disco y luego pedir el regenerado del disco.
Adendum:
Es importante entender que los estudios de prestancia de los fabricantes de discos sobre sus sobre unidades de almacenamiento se hacen, - para todos los efectos – siguiendo criterios que usan inferencia estadística, cosa que muchas empresas dedicadas al almacenamiento han malinterpretado erróneamente en las especificaciones MTBF y AFR como elementos “de ciencia cierta” que garantizan el comportamiento de la unidad.
Para el caso particular son conocidas las especificaciones de discos que aseguran 1.2 millones de horas de operación sin fallas ó MTBF (mean time between faliure) pero ellas solo indican que sobre una gran muestra de discos se sumaron todos los tiempos de operación y al momento de fallo se cronometró un tal o cual error.
Teniendo esto claro será más eficaz y real tomar nota de variables como son la AFR (Anualized Fail Rate) que indica el inverso MTBF o bien, dice en buen castellano que “de un grupo de cien unidades de discos se puede esperar un cierto porcentaje de fallas a lo largo de un año de uso estándar”.
El AFR es una variable que por lo general se mueve entre 0,4 y 1 lo que significa que si tenemos cien discos nos preparemos para que al menos 0,4 presenten un problema el primer año calendario de uso y que este número subirá conforme se vaya completando la vida útil de medio.
Muchos se preguntarán porque hemos insistido en hablar de discos en vez de sacar a colación las nuevas memorias SSD. La razón es simple! y es que el VOD tal cual está planteado aqui hoy requiere de cantidades de almacenamiento medidas en la escala de los terabytes y al menos que se trate de un proyecto que requiera de un altísimo performance no resulta económicamente viable pensar en estas tecnologías por el momento.
EN NUESTRO PROXIMO POST…
Los administradores de servicios de alta demanda y en especial aquellos que requieren del acceso a videos de la forma más veloz y económica que la tecnología pueda ofrecer han hecho uso de técnicas que explicaremos en un próximo análisis de nuestro Blog y que ejercitan prácticas de localización a través de la aplicación de tecnologías de grabación perpendicular, número de platos y adecuada ubicación de archivos en los cilindros de los arreglos RAID, de modo que se aprovechen las ventajas físicas ligadas a la densidad de data por unidad de área y la velocidad lineal tangencial en los extremos de los platos de los discos.











