Netflix – Chaos Monkey

¿Te imaginas implementar una herramienta que su único objetivo sea sabotear tus ambientes productivos? Bienvenidos a Chaos Monkey

Desde hace un tiempo Netflix nos ha sorprendido con la liberación de varios de las herramientas core que ellos mismo han desarrollado y posteriormente liberadas a la comunidad Open Source.

Herramientas como Eureka, Hydrix, Turbine, Ribbon, Zuul, etc son parte de una gran gama de herramientas que Netflix ha libreado bajo la denominación de Netflix OSS (Netflix Open Source Software) y que han servido como base para muchas de las más grandes empresas del mundo para crear aplicaciones más rápido, robustas y escalables. En este sentido, Chaos Monkey es una de la familia de productos de la denominada Netflix OSS.

El objetivo de Chaos Monkey es sabotear nuestro ambiente productivo de forma aleatoria, con la finalidad de que el equipo de ingeniería nunca pueda predecir cuando ni que saboteara.

Puede resultar estúpida la idea de implementar tal cosa en nuestra infraestructura, pues si ya tenemos muchos problemas en producción, para que queremos más, sin embargo, lo que se busca con Chaos Monkey es que nuestro empresa pueda madurar en el sentido de que se creen planes de desastre, alta disponibilidad y notificaciones para que nuestro equipo de ingeniería esté preparado para cuando ocurra una verdadera falla.

Lo que se búsca al implementar Chaos Monkey es que la empresa construya herramientas lo más automatizadas posibles para recuperar el fallo provocado por Chaos Monkey, por ejemplo, si este tumba un servidor productivo, podrías crear un script que detecte cuando un servidor se cae, notifique a un usuario administrador y en automático lo levante de nuevo, la idea es que nuestra empresa madure poco a poco en cuanto a la tolerancia a fallas para que cuando un verdadera falla ocurra en producción a las 4 AM, podamos actuar lo más rápido posible para corregirla antes de que nuestro cliente nos hable enojados por que están fallando los sistemas.

Chaos Monkey trabaja de forma aleatoria, pero dentro de horarios laborales, es decir, no ataca en fines de semana, días festivos o por la noche, pues la idea es entrenar a nuestros ingenieros, no desvelarlos todas las noches.

Si quieres saber más de esta herramienta puede ir a la página oficial: https://github.com/Netflix/chaosmonkey

Conclusiones

Siempre será mejor crear fallas controladas que podamos corregir rápidamente, que esperar a que una verdaderas falla catastrófica ocurra en nuestros ambientes y no sepamos que hacer.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *