Redefine tu sistema

La importancia de la disponibilidad del Sistema

Introducción

Las empresas de todos los sectores confían cada vez más en aplicaciones para manejar todo, desde las operaciones de back-end hasta la entrega de nuevos productos, servicios y experiencias de clientes. Ese es el motivo por el cual la disponibilidad del sistema de infraestructura y la eliminación del tiempo de inactividad no planificado son más importantes que nunca antes. Una investigación reciente demostró que el costo promedio de una hora de inactividad es de aproximadamente medio millón de dólares,1 y este costo no hará más que aumentar con la constante digitalización de las industrias.

Durante demasiado tiempo, la disponibilidad de almacenamiento superior solo fue posible mediante costosos contratos de servicio in situ de modelos de hardware excesivamente redundantes. Desde su fundación, Nimble, una empresa de Hewlett Packard Enterprise, se dedicó a la ambiciosa misión de romper el molde y no solo desarrollar una mayor disponibilidad en sus productos, sino también habilitar la mejora continua con el tiempo.

En 2014, Nimble (ahora una empresa de Hewlett Packard Enterprise) anunció lo que en ese momento fue un adelanto: más de cinco nueves de disponibilidad medida. Solo dos años después, Nimble se alejó todavía más de la manada con más de seis nueves (99,999928 %) de disponibilidad medida en toda su base instalada. Esto se traduce en un impacto de menos de 25 segundos al año, una mejora de cuatro veces en apenas un poco más de dos años.2

Es importante comprender que no todos los valores de disponibilidad publicados se generan de igual manera, muchos son solo mediciones teóricas. Los detalles sobre cómo se entrega la disponibilidad se diferencian entre sí y reducen el riesgo comercial. Con relación a la disponibilidad de Nimble:

1. Se mide y se basa en valores reales y logrados, no en proyecciones teóricas.

Puede confiar en los niveles de disponibilidad futura solo cuando las mediciones del rendimiento pasado son transparentes y comprobadas con clientes y datos reales.

2. Se mide respecto de toda la base instalada, con inclusión de cada modelo y versión de sistema operativo.

Mostrar una mejora de las versiones y los productos más recientes es fácil. El desafío es entregar disponibilidad de todo el sistema, incluso de sistemas que han estado en operación durante más de seis años.

3. Mejora permanentemente.

Ya empieza siendo más confiable que otros y sigue mejorando con más de seis años de perspectivas y aprendizaje de la base instalada.

4. Es estándar para todos los productos, sin requerir servicio ni condiciones especiales.

Desarrollar la mejor disponibilidad de su clase en cada producto sin cobrar una prima adicional ni requerir una configuración o un contrato de servicio especial es esencial para Nimble.

Esta innovación nos lleva a preguntarnos: ¿cómo lo hace Nimble?

La base para la confiabilidad del sistema de Nimble parte de la arquitectura de la plataforma de almacenamiento. No hay ni un punto de falla (tolerancia a fallas con componentes redundantes). Los controladores duales permiten las actualizaciones sin interrupciones, que no afectan el rendimiento en caso de falla del controlador. Sumado a ello, la arquitectura del software es tolerante a fallas y entrega una integridad de datos extremadamente sólida que incluye Triple+ Parity RAID y validación de seguridad integral.

Sin embargo, hay grados de imprevisibilidad que no se pueden resolver en todo el diseño del sistema debido a la complejidad en las capas de infraestructura. Esto no impidió que Nimble siguiera mejorando en forma significativa y progresando hasta lograr un ciclo de vida de tiempo de inactividad cero. La disponibilidad medida de los arrays de Nimble sigue mejorando mediante los análisis predictivos, el aprendizaje sobre la base instalada y nuestro compromiso respecto de una experiencia de soporte transformada. Nimble está redefiniendo el estándar.

Las secciones que siguen de este informe analizan los detalles, revelan el enfoque único que permitió a Nimble mejorar en forma continua y superar la disponibilidad medida de seis nueves en toda la base instalada.

Evita el tiempo de inactividad

Cómo evitar el tiempo de inactividad con InfoSight Predictive Analytics

Desde su concepción, Nimble incorporó el análisis avanzado en la arquitectura principal de cada sistema, y lo hace para mejorar radicalmente la confiabilidad del sistema operativo, no solo para los arrays de almacenamiento, sino también para las capas de infraestructura más allá del almacenamiento. La complejidad y variabilidad en las aplicaciones, la infraestructura y las configuraciones hizo que los problemas que inducen a la inactividad fueran inevitables.

Para combatir este problema de larga data, Nimble tomó una posición única y empezó a incorporar sensores de diagnóstico en cada módulo de código desde el primer día, de ese modo creó los cimientos para el análisis en tiempo real, de estado profundo y rendimiento. Al día de hoy, cada sistema tiene miles de recolectores de sensores e InfoSight Predictive Analytics recopila y correlaciona millones de puntos de datos de sensor por segundo en su base instalada, de ese modo habilita el aprendizaje y la visibilidad general.

Infraestructura que aprende

InfoSight aplica la ciencia de los datos para identificar, predecir y evitar problemas en las capas de infraestructura. Respecto de cualquier problema que exista en la base instalada, se asignan firmas de estado predictivo e InfoSight usa en forma inteligente algoritmos de coincidencia de patrones y busca firmas en los sistemas de manera continua.

Si se detecta una firma, InfoSight evita que se produzca el problema o ien lo resuelve en forma proactiva con una resolución prescriptiva, incluso si el problema se encuentra fuera del almacenamiento. No existen alertas falsas ya que el aprendizaje automático normaliza el comportamiento del rendimiento en la base instalada.

Cada sistema se hace más inteligente continuamente, aprende de la base instalada, y los eventos de tiempo de inactividad se evitan cada vez más.

Los factores fuera del almacenamiento, como las malas configuraciones, problemas de host, red o VM, pueden afectar la ruta de E/S. InfoSight correlaciona los datos del sensor en toda la infraestructura y resuelve problemas más allá del almacenamiento, develando las causas raíz de los problemas que afectan la entrega de datos, desde el almacenamiento hasta las máquinas virtuales (VM). De hecho, el 54 % de los problemas que resuelve InfoSight están fuera del almacenamiento. Dado que Nimble se ha dedicado a esto durante más de seis años, InfoSight tiene más perspectivas predictivas y datos de sensores de diagnóstico que cualquier otro proveedor.

Con InfoSight y el poder del análisis predictivo, la disponibilidad medida es superior a los seis nueves en la actualidad, y sigue mejorando para todos los sistemas. Este valor de disponibilidad no se limita al último modelo ni a la última versión de software, como sucede con otros proveedores, sino que representa a toda la base instalada de Nimble.

¿Cómo se mide la disponibilidad?

Los datos que Nimble recopila de los arrays de almacenamiento permiten medir la disponibilidad en microsegundos. Si bien la mayoría de los arrays no tiene tiempo de inactividad, cualquier periodo de inactividad que sucede se identifica automáticamente, se categoriza y se archiva, lo que permite a Nimble hacer un seguimiento a través de la base instalada, así como por versión de software, modelo o cualquier otra dimensión. Estos registros se conservan bajo normas estrictas, y todo tiempo de inactividad se investiga para garantizar que el impacto al cliente se capture con precisión. En general, las cifras de disponibilidad se monitorean periódicamente, lo que nos permite identificar áreas en las que se pueden hacer más mejoras

Dado que el seguimiento de la disponibilidad es una herramienta tan poderosa, es importante que sea lo más completa posible. Se incluyen todos los arrays, salvo los sistemas internos usados para el desarrollo y la evaluación. Sumado a ello, se incluyen todos los problemas que generen tiempo de inactividad no planificado, incluso problemas a causa de un problema de un tercero. Se excluyen los periodos durante los cuales no se prevé que un array esté disponible, por ejemplo, un corte de energía general o una situación en la que un cliente cierra el array para trasladarlo a una ubicación nueva.

Principio Rector para la prevención de problemas

Si Nimble observó o tiene conocimiento de un problema, ningún cliente debe experimentar el mismo problema en su entorno, independientemente de la complejidad o la ubicación de la causa raíz. Este principio rector dió lugar a un enfoque metódico sobre la comprensión clara de la causa raíz de cada problema y cada caso, incluso más allá del almacenamiento, para evitar que cualquier cliente experimente el mismo problema.

Ver una vez, evitar para siempre

InfoSight habilita una nueva y mejor experiencia de soporte, una que se aplica a la ciencia de los datos y a la automatización de caso inteligente para ayudar a minimizar la posibilidad de que un problema conocido se experimente en algún momento en la base instalada. Integrados en esta experiencia de soporte se encuentran los ingenieros PEAK, un equipo especial con conocimiento técnico sobre las capas de infraestructura. Estos ingenieros son responsables de evaluar el caso, realizar un análisis de causas raíz rápido y definitivo, definir las normas de automatización del caso y supervisar la resolución del problema antes de que los problemas puedan afectar a los clientes. La imagen siguiente representa el procedimiento operativo estándar del equipo.

1. Análisis de datos: InfoSight supervisa constantemente y analiza la telemetría del sensor desde la base instalada global, millones de sensores por segundo de más de 10 000 clientes.

2. Creación de caso: InfoSight prevé un problema potencial o un cliente crea un caso (Nota: el noventa y nueve por ciento de los casos se crean automáticamente y el 86 % de los casos se resuelven y se cierran automáticamente antes de que el cliente tenga conocimiento de un problema).

3. Análisis de causa raíz: para los problemas complejos, se asigna un ingeniero PEAK dedicado y trabaja con ingeniería e InfoSight para diagnosticar rápidamente la causa raíz, incluidos los problemas fuera del almacenamiento. Se crea una firma que identifica los parámetros, que incluyen el sistema operativo, las métricas de rendimiento, los perfiles de aplicación y de carga de trabajo y las configuraciones de terceros.

4. Resolución de problemas: el ingeniero PEAK desarrolla el plan de resolución, verifica que las reparaciones estén terminadas y cierra el caso.

5. Prevención de base instalada: InfoSight aplica algoritmos que coinciden con patrones en la firma para identificar, prever y evitar que otros sistemas experimenten el mismo problema.

Rutas de actualización personalizadas

Los ingenieros PEAK pueden invocar un mecanismo de lista negra que impide que los clientes hagan actualizaciones a versiones del sistema operativo Nimble específicas, asociadas a un problema que se identificó en otros entornos con configuraciones similares. InfoSight, a su vez, crea rutas de actualización personalizadas para cada cliente. Esto significa que los clientes pueden saber con certeza que las actualizaciones disponibles son seguras, dado que se mitigaron los problemas identificados.

La concentración absoluta de Nimble en la prevención de problemas conocidos, junto con InfoSight Predictive Analytics, generó una disminución del 19,3 % año con año de la cantidad de casos de soporte con participación del cliente.3 Este logro se alcanzó a pesar de haber aumentado su base de clientes un 900 % en el mismo periodo. Resultado neto: se evitan los eventos de tiempos de inactividad y el valioso tiempo con el cliente se puede usar para impulsar valor comercial, en lugar de emplearlo para el mantenimiento y la resolución de problemas.