[Detalles del Incidente]
La lentitud de las Máquinas del Nodo33 era provocada por un alto Load Average de la CPU, esto relacionado a un error de memory log en una de las tarjetas de memoria RAM. El error de RAM ya era conocido por nuestro equipo de Ingenieros, el cambio de este componente ya estaba programado para este Jueves 23, lamentablemente la memoria defectuosa provocó hoy un aumento inesperado del load average de CPU. Al detectar la sobre carga de CPU nuestro equipo de Ingenieros en primera instancia intentaron (11:00 am) solucionar el error sin provocar un downtime de los servicios, debido a que no se obtuvieron mejoras con este procedimiento se determinó adelantar el cambio de RAM (18:30) lo que provocó un downtime de aproximadamente 30 min, después de este cambio el Nodo33 volvió a su normalidad por lo que todas las máquinas ya están operativas de nuevo.
CRONOGRAMA DEL INCIDENTE
[10:00 am]
Se ha detectado sobrecarga de CPU en el Nodo33. Se esta investigando para detectar el problema y mitigar la situación.
[Actualización 18:30]
Se ha hecho necesario llevar a cabo un reinicio de emergencia del nodo 33, cada uno de nuestros clientes serán notificados vía correo electrónico, los detalles del proceso pueden ser solicitados vía el mismo ticket de notificación. Tiempo aproximado downtime: 60 minutos.
[Actualización 19:00]
Actualmente el error ya esta solucionado. Se ha cambiado la memoria RAM defectuosa y todos los servicios se encuentran operativos.