Interrupción del servicio y problemas con el servidor de aplicaciones

Interrupción del servicio y problemas con el servidor de aplicaciones

El día Viernes 4 de Marzo, experimentamos un problema en nuestros servidores que interrumpió el servicio severamente por cerca de 1 hora, y de manera intermitente por 1 hora antes de eso. Sabemos que FinanzaPro es una herramienta crítica para la operación de tu empresa, por lo que entendemos la frustración que esto puede causar. Este es el primer evento de esta magnitud que sufrimos desde que empezamos a brindar el servicio de FinanzaPro Cloud, y dada la magnitud del mismo, es necesario hacer este “post mortem” de la situación para informar de lo sucedido.

La situación

Nuestros sistemas nos alertaron del problema a eso de las 2:40pm de la tarde. Vimos que el servidor estaba reportando altos tiempos de respuesta, por lo que empezamos a investigar y detectamos el problema: el servidor de base de datos estaba consumiendo toda la memoria del servidor de aplicaciones. Reiniciamos los servicios de FinanzaPro para que los servicios volvieran a la normalidad, y volvieron a la normalidad por aproximadamente 30 minutos.

Estadísticas de Disponibilidad del Servicio

Sin embargo, luego se presentó de nuevo la misma situación, y esta vez, cada vez que reiniciábamos los servicios, la situación se presentaba nuevamente a los pocos minutos. Ante esto, decidimos reiniciar completamente el servidor de aplicaciones, que fue lo que causó gran parte de la interrupción del servicio. Tuvimos varias incidencias del mismo problema después de eso y finalmente, a eso de las 4:45pm, los servicios empezaron a volver a la normalidad.

La siguiente es la bitácora detallada de lo que se hizo para resolver el problema:

postmortem2

 

El problema

Luego de investigar lo sucedido, tanto con los reportes de los usuarios como con las bitácoras de los servidores, descubrimos que el causante del problema fue un reporte de liquidaciones en planillas, que al imprimirse desde el histórico de liquidaciones, generaba que el servidor de la base de datos empezara a consumir toda la memoria disponible. Esto sucedió en una base de datos con una cantidad importante de planillas y dado que esto no debe suceder en un servidor de base de datos, ya reportamos el problema a la empresa del servidor de base de datos.

Por nuestra parte, procedimos a modificar el reporte y optimizar la consulta a la base de datos, para evitar que el problema se presentara de nuevo. Hicimos todas las pruebas correspondientes, y ya se actualizaron todas las bases de datos con la corrección de ese reporte.

Lecciones aprendidas

Lo más importante que rescatamos es la importancia de informar rápidamente a nuestros usuarios cuando se da una situación como esta, y principalmente, de lo que se está haciendo para resolverla. Desde el inicio, tenemos una página que brinda información en tiempo real de los estados de todos los servicios de la plataforma de FinanzaPro Cloud:

postmortem3http://uptime.finanzapro.com

 

Sin embargo, esta página no nos permite ofrecer actualizaciones en tiempo real de lo que estamos haciendo cuando se presenta una situación como la del viernes. Por esta razón, creamos una nueva página con información en tiempo real del estado nuestros servicios:

 

postmortem4http://status.finanzapro.com

En esta nueva página, no solo mostramos el estado actual de nuestros servicios, sino que cuando se presente un evento como el del Viernes, vamos a brindar avances detallados del problema, lo que nos va a permitir mantener informados a todos nuestros usuarios de lo que estamos haciendo para resolver la situación.

Si están interesados en recibir actualizaciones automáticas por correo de estos eventos, también se pueden suscribir por correo en esta página.

Y para hacer más fácil el acceso a estas páginas, incluimos en la parte inferior de nuestro sitio web, accesos directos a ambas páginas, para que puedan consultar el estado de nuestros servicios en cualquier momento.

postmortem5

 

Nuestras más sinceras disculpas por todos los inconvenientes y estrés innecesario que esta situación pudo haber causado en tu empresa y en tu labor diaria.  Para nosotros es la prioridad número uno poder brindar un servicio eficiente y sin interrupciones.  Vamos a seguir trabajando en mejorar nuestras tecnologías y nuestra infraestructura para hacerla cada vez mejor y minimizar situaciones como esta.

Si tienes alguna consulta o inquietud sobre este incidente o esta información, por favor no dudes en escribirnos por nuestro chat, abajo a la derecha.


Comentarios